Google希望為使用歷史超過25年的網路爬蟲機器人制定更嚴謹規範

聯合新聞網 楊又肇

Google稍早宣布,將針對1994年由荷蘭軟體工程師Martijn Koster提出的「Robot Exclusion Protocol (REP,網路爬蟲機器人協定)」提出真正標準。

雖然過去25年以來,諸多網站與網路搜尋服務都是依照「REP」協定設計,透過存放在網站根目錄的robot.txt宣告哪些內容可以被網路爬蟲機器人擷取,以及擷取頻率,但實際上「REP」協定設計並不嚴謹,例如網站停擺時候如何讓網路爬蟲機器人運作,同時網路爬蟲機器人應該依照何種頻率抓取網站內容,避免造成網站伺服器負擔過重,或是無法即時抓取更新內容等,實際上並沒有一定規範。

因此,就Google稍早提出想法,除了將自身打造的網路爬蟲機器人Googlebot所使用「REP」解析器開源,藉此作為標準設計參考依據,並且期望能以此帶動讓「REP」協定設計能有更嚴謹、統一的標準。

雖然目前還沒有明確標準確定時程,同時也不代表未來將以Google提供版本為準,主要還是會考量不同類型網站使用需求微設計,藉此減少網路爬蟲機器人所產生問題,並且讓網路內容能更容易被網路搜尋服務適時、適當地擷取內容,進而讓更多人可透過搜尋引擎服務找到合適內容。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

Google

推薦文章

留言