Cloudflare釋出免費工具讓網站經營者快速杜絕內容被用於人工智慧技術訓練

2024-07-05 08:20

聯合新聞網／ 楊又肇

針對近期有不少人工智慧 技術業者利用爬蟲機器人 抓取各個網站內容，藉此用於訓練其大型自然語言模型，Cloudflare 稍早宣布推出一項簡單操作且免費的工具，讓網站經營者能快速杜絕內容被爬蟲機器人抓取，甚至影響網站整體存取效能的問題。

Cloudflare表示，此工具同時也會向免費方案用戶提供，並且能隨著時間推移、學習不同爬蟲機器人抓取資料模式進行更新，讓網站經營者能更容易且安心地阻止爬蟲機器人抓取其內容，並且用於人工智慧技術訓練。

依照Cloudflare統計資訊，由於不少抓取資料的爬蟲機器人可繞過傳統網頁存取條件設定，使得許多網站經營者必須採取更嚴格過濾方式阻擋爬蟲機器人，結果導致影響更多正常網頁造訪操作，連帶影響其整體流量表現，甚至造成在網路搜尋引擎 排名結果。

而在統計資訊中，字節跳動旗下爬蟲機器人Bytespider存取使用Cloudflare服務網站的佔比達40%，而OpenAI 旗下爬蟲機器人GPTBot則佔30%，其餘存取佔比較明顯的爬蟲機器人還包含亞馬遜旗下Amazonbot，以及Claude AI旗下ClaudeBot，約佔整體存取量的一半左右。