我們正邁入一個由 AI 驅動的網際網路新時代。這個新時代的序幕,是由包括網站爬蟲與抓取工具在內的 AI 機器人拉開的,它們正不斷蒐集越來越多的資料,用以訓練 AI 模型。網站爬取與資料擷取並非新現象:搜尋引擎公司長久以來一直會爬取網站、擷取內容,以建立搜尋結果。而這個過程過去對網站擁有者而言一向是有利的,因為搜尋結果能為他們的網站帶來流量。
然而,當 AI 和搜尋引擎公司利用爬取而來的內容來訓練 AI 模型時,他們正在改變使用者與網頁內容互動的方式。這些 AI 模型開始產生衍生內容,這些內容如今會出現在搜尋引擎結果頁面上方的概要中,也會作為生成式 AI (GenAI) 工具對使用者查詢的回應內容。使用者愈發信任這些衍生內容,且通常不再造訪原始的來源網站。這對品牌與內容創作者(尤其是媒體發佈者)造成了困擾,因為網站流量的減少,會直接影響他們推廣訂閱服務與獲取廣告收入的能力。
與此同時,使用者對這些衍生內容愈發信任,也引發了有關資料起源、智慧財產權,以及內容遭不當使用等問題。簡而言之,內容創作者不再能掌控自己的內容。
AI 機器人也為所有組織和各個產業帶來了重大的安全和合規風險。這些機器人可能竊取智慧財產、入侵 Web 應用程式,並找到導致安全事件或資料外洩的漏洞。
我們必須正面迎擊 AI 機器人所帶來的安全挑戰,而且必須從現在開始——因為這項威脅只會持續擴大。身為安全領導者,我們需要建立有效的機制,在不阻礙這個新網際網路時代所帶來的各種機遇的前提下,保護我們的組織免於任何有害機器人的侵害。
當我攻讀資料科學和機器學習的研究生學位時,我逐漸明白,AI 公司會競相收集大量的高品質資料。您收集的高品質資料越多,您的模型就會越好。
然而,僅在過去一年裡,AI 爬蟲活動的急劇增長已令人震驚:來自 Cloudflare Radar 的資料顯示,從 2024 年 7 月至 2025 年 7 月,用於為 ChatGPT 收集訓練資料的 GPTBot 所發出的原始請求量增加了 147%。在同一時期內,用於協助訓練 Meta AI 模型的 Meta-ExternalAgent 所發出的原始請求量更是暴增了 843%。
與此同時,網站上也持續出現其他類型的 AI 機器人活動。舉例來說,惡意機器人並非僅僅在爬取網站內容——它們還會掃描 Web 應用程式的漏洞、入侵使用者帳戶、進行詐騙購買、透過線上表單提交垃圾資訊、拖慢網站效能,以及進行更多其他危害行為。
單一惡意機器人就可能對企業造成災難性後果。試想,您將一家上市公司季度財報的暫時版本上傳至暫存網站,並規劃在股市收盤後才正式公佈這些資料。但假設惡意機器人提前取得了這些資訊,並透過搜尋查詢讓使用者也能存取。這些使用者可能會依據這些尚未公開的重大內幕資訊進行股票交易,導致貴公司面臨監管罰款與法律訴訟的風險。
網路安全領導者必須專注於攔阻所有可能危害其組織的機器人,但要做到這一點並不簡單。
AI 工具正讓網路犯罪分子(甚至部分 AI 公司)更容易開發出能夠規避傳統防禦機制的機器人。舉例來說,網路罪犯可以利用 AI 開發出能夠改變機器人特徵或攻擊媒介的機器人,藉此繞過地理位置或 IP 位址封鎖之類控管措施。此外,AI 公司與網路犯罪分子 也能打造能夠模擬人類行為的 AI 機器人,從而破解 CAPTCHA 驗證挑戰。
AI 不僅協助網路犯罪分子打造「更聰明」的機器人,還讓他們能以前所未有的規模與速度發動機器人大規模入侵,壓垮現有的防禦與管控機制。
為了阻止惡意 AI 機器人,並有效控管網站爬取與內容剽竊行為,企業需要採行一套多層次安全策略。此策略結合了靜態防護控制、更具預測性的動態防禦能力,以及精細化的治理機制。
靜態防護控制為多層次資安策略奠定了基礎,能夠即時封鎖大規模的機器人攻擊,並防止 AI 驅動的機器人繞過傳統防禦機制。靜態防護控制包括:
無需 CAPTCHA 的驗證機制,能封鎖機器人,卻不會拖慢真實使用者的體驗。