上週我寫了一篇「ChatGPT search :OpenAI 的革命性 AI 搜尋引擎 ,將如何重塑未來搜尋?」,可以預見在不久的將來 AI 搜尋引擎將改變使用者過去二十年的搜尋習慣,其實對內容創作者來說很矛盾,我們既希望從 AI 搜尋創造更多流量 來源,但又不想要內容被 AI 服務直接拿去訓練大型語言模型(像是未取得授權的情況下就把內容全部搬走的感覺),國外有部分出版商已率先表示他們將會拒絕 AI 使用任何相關內容。
如果你問我:網站 管理者是否應該讓 AI 存取網站內容呢?我會抱持正面開放態度,對於內容我在乎的是能被更多人使用並解決使用者遇到的問題,至於未來在 AI 服務上的資料來源呈現方式,有沒有對於流量有所幫助,這些問題我覺得都會慢慢獲得改善,也會在一段時間後逐漸累積共識。
如何阻擋 AI 機器人 ?
但你可能會有不同的想法,若不希望網站內容被使用於訓練 AI 模型可以利用 robots.txt 對 AI 服務網頁檢索器進行阻擋,我在「如何阻擋 OpenAI ChatGPT 抓取或使用你的網站內容?」也有介紹過實作方式,當然各家服務檢索器的使用者代理(User-Agent)也不一樣。
以下的 robots.txt 可禁止所有主流生成式 AI 機器人將網站內容用於訓練大型語言模型:
robots.txt 的用途
robots.txt 檔案主要是用於告訴搜尋引擎可以存取網站上的那些網址,最常看到的是禁止搜尋引擎爬蟲去檢索特定頁面(例如需要登入權限才能存取的網址),或管理檢索流量、防止圖片、影片和音訊檔案顯示在搜尋結果。但只針對遵循規則的檢索器有用,主要服務基本上都會遵循該規則。
好消息是 ChatGPT 制定出一個方法,讓網站管理者在拒絕網站內容被 AI 用於訓練時也能顯示於 ChatGPT search 搜尋結果,ChatGPT search 搜尋資料來自於 Bing 搜尋和 OpenAI 的 OAI-SearchBot 檢索器,只要網站不阻擋掉這兩個檢索器(而且不能阻擋這些檢索器 IP 位址)那麼就有機會顯示於 ChatGPT search 搜尋結果中。
Cloudflare 一鍵封鎖 AI 機器人
如果你是使用 Cloudflare 服務,那麼在服務端就有提供「封鎖 AI 機器人」選項,可以快速封鎖機器人抓取內容供 AI 應用程式使用,例如做為模型訓練,只要打開即可,完全不用額外設定 robots.txt 檔案,或許是更有效率的方法。
這個選項在 Cloudflare 「網路安全」的「機器人」類別中,只要點選進去就會看到封鎖 AI 機器人功能,但要注意的是封鎖機器人後也會封鎖已驗證的 AI 機器人。
《原文刊登於免費資源網路社群,由Pseric撰寫。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 嚇慘!LINE相簿驚見「陌生人大眼鬼影照」 官方認了曝3步驟解決
📢 LINE免費貼圖7款來了!可愛動物亂鬥 馬來貘、小薩、狗幾、喔熊慶耶誕
📢 LINE內建表情貼不見了?官方大改版網嚇「變好色又變醜」 1方法恢復舊版本
📢 【開箱】ROG Phone 9 Pro Edition!LED炫砲又低調「I人不害羞」
📢 出門玩不怕迷路!教你用Google Maps看「實景」找路 每次用每次成功
📢 CASETiFY胡子碰碰手機殼2款可愛開箱!台式早餐圖案聞香 磁吸卡套支架極速感應