針對近期有不少人工智慧 技術業者利用爬蟲機器人 抓取各個網站內容,藉此用於訓練其大型自然語言模型,Cloudflare 稍早宣布推出一項簡單操作且免費的工具,讓網站經營者能快速杜絕內容被爬蟲機器人抓取,甚至影響網站整體存取效能的問題。
Cloudflare表示,此工具同時也會向免費方案用戶提供,並且能隨著時間推移、學習不同爬蟲機器人抓取資料模式進行更新,讓網站經營者能更容易且安心地阻止爬蟲機器人抓取其內容,並且用於人工智慧技術訓練。
依照Cloudflare統計資訊,由於不少抓取資料的爬蟲機器人可繞過傳統網頁存取條件設定,使得許多網站經營者必須採取更嚴格過濾方式阻擋爬蟲機器人,結果導致影響更多正常網頁造訪操作,連帶影響其整體流量表現,甚至造成在網路搜尋引擎 排名結果。
而在統計資訊中,字節跳動旗下爬蟲機器人Bytespider存取使用Cloudflare服務網站的佔比達40%,而OpenAI 旗下爬蟲機器人GPTBot則佔30%,其餘存取佔比較明顯的爬蟲機器人還包含亞馬遜旗下Amazonbot,以及Claude AI旗下ClaudeBot,約佔整體存取量的一半左右。
不過,即便提供相關工具阻止爬蟲機器人大量存取網站資料,Cloudflare表示仍有不少人工智慧技術業者透過規避方式繞過檢測,使其爬蟲機器人仍可大量存取網站資料。
例如,先前便傳出Perplexity AI繞過網站存取規則,在未經許可情況下存取網站內容,而若以嚴格過濾方式限制此類存取行為,可能會造成多數網站實際存取流量受影響,因此Cloudflare預期會透過更進一步的機器學習方式識別存取行為是否正常,或是進一步阻止爬蟲機器人惡意存取資料情況。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》