18+

網站內容不想被AI訓練又想顯示在ChatGPT搜尋結果該怎辦?2招教你做

(圖/免費資源網路社群提供)
(圖/免費資源網路社群提供)

上週我寫了一篇「ChatGPT search OpenAI 的革命性 AI 搜尋引擎 ,將如何重塑未來搜尋?」,可以預見在不久的將來 AI 搜尋引擎將改變使用者過去二十年的搜尋習慣,其實對內容創作者來說很矛盾,我們既希望從 AI 搜尋創造更多流量 來源,但又不想要內容被 AI 服務直接拿去訓練大型語言模型(像是未取得授權的情況下就把內容全部搬走的感覺),國外有部分出版商已率先表示他們將會拒絕 AI 使用任何相關內容。

如果你問我:網站 管理者是否應該讓 AI 存取網站內容呢?我會抱持正面開放態度,對於內容我在乎的是能被更多人使用並解決使用者遇到的問題,至於未來在 AI 服務上的資料來源呈現方式,有沒有對於流量有所幫助,這些問題我覺得都會慢慢獲得改善,也會在一段時間後逐漸累積共識。

如何阻擋 AI 機器人

但你可能會有不同的想法,若不希望網站內容被使用於訓練 AI 模型可以利用 robots.txt 對 AI 服務網頁檢索器進行阻擋,我在「如何阻擋 OpenAI ChatGPT 抓取或使用你的網站內容?」也有介紹過實作方式,當然各家服務檢索器的使用者代理(User-Agent)也不一樣。

以下的 robots.txt 可禁止所有主流生成式 AI 機器人將網站內容用於訓練大型語言模型:

(圖/免費資源網路社群提供)
(圖/免費資源網路社群提供)

robots.txt 的用途

robots.txt 檔案主要是用於告訴搜尋引擎可以存取網站上的那些網址,最常看到的是禁止搜尋引擎爬蟲去檢索特定頁面(例如需要登入權限才能存取的網址),或管理檢索流量、防止圖片、影片和音訊檔案顯示在搜尋結果。但只針對遵循規則的檢索器有用,主要服務基本上都會遵循該規則。

好消息是 ChatGPT 制定出一個方法,讓網站管理者在拒絕網站內容被 AI 用於訓練時也能顯示於 ChatGPT search 搜尋結果,ChatGPT search 搜尋資料來自於 Bing 搜尋和 OpenAI 的 OAI-SearchBot 檢索器,只要網站不阻擋掉這兩個檢索器(而且不能阻擋這些檢索器 IP 位址)那麼就有機會顯示於 ChatGPT search 搜尋結果中。

Cloudflare 一鍵封鎖 AI 機器人

如果你是使用 Cloudflare 服務,那麼在服務端就有提供「封鎖 AI 機器人」選項,可以快速封鎖機器人抓取內容供 AI 應用程式使用,例如做為模型訓練,只要打開即可,完全不用額外設定 robots.txt 檔案,或許是更有效率的方法。

這個選項在 Cloudflare 「網路安全」的「機器人」類別中,只要點選進去就會看到封鎖 AI 機器人功能,但要注意的是封鎖機器人後也會封鎖已驗證的 AI 機器人。

(圖/免費資源網路社群提供)
(圖/免費資源網路社群提供)

《原文刊登於免費資源網路社群,由Pseric撰寫。》

延伸閱讀

線上翻譯不求人!「DeepTranslate」結合ChatGPT 免費支援140種語言

免費雙重驗證工具APP!「Bitwarden Authenticator」蘋果iOS、Android都能用

線上圖片壓縮工具「Compress JPG」免費!單次可壓縮最多1000張照片

免費空間上傳圖片限制多?老字號圖床服務SM.MS超好用 無流量限制

本日熱門 本周最熱 本月最熱