18+

「404找不到網頁」過去10年已有38%網頁內容無法再被存取

因為人為因素、政策緣故或技術等情形,過去10年約有38%比例網頁內容無法再被存取。
因為人為因素、政策緣故或技術等情形,過去10年約有38%比例網頁內容無法再被存取。

非營利研究機構皮尤研究中心(Pew Research Center)近期公布研究報告指出,2013年時的網頁內容在經過10年之後,已有約38%比例無法存取。

從皮尤研究中心研究觀點指出,網路 已經成為當前多數使用者 用於查詢資料、尋求解答,以及與他人進行交流來源,至今已經累積超過數千億筆資料索引內容,並且涵蓋網路文章 、新聞報導、圖像、數位化內容等,但也因為人為因素、政策緣故或技術等情形,導致一部分內容無法再次被存取使用,而這些數位衰退現象經常發生在不同網路環境。

皮尤研究中心以2013年至2023年間,每年從非營利計畫「Common Crawl」自公開網路抓取且以免費形式對外使用的檔案 數據 集進行約9萬筆資料採樣,總計累積約100萬個網頁採樣內容,其中約25%比例頁面無法正常存取。

而這25%比例無法正常存取頁面中,約16%比例為基礎網域仍可正常運,但相關頁面已經無法正常存取,另外9%比例則是連網域都無法正常使用。

另外,從政府公開網站 採樣約50萬個網頁內容,約21%比例網頁至少會有一個無法正常使用的網頁連結,尤其在地方層級的政府機構網站發生比例居高。

至於以comScore 歸類為「新聞/資訊」、總計2063個網域所對應的新聞媒體網站頁面中,在採樣約50萬個網頁內容約有23%比例網頁至少會有一個無法正常使用的網頁連結,而在英語維基百科上隨機採樣的5萬個頁面,約54%比例頁面會包含至少一個無法正常使用的連結。

從目前更名為「X」的前Twitter服務,光是在2023年3月8日至4月28日間於美國境內發表約500萬個推文內容,截至同年6月15日為止約3個月時間內,已有18%比例推文將狀態設置為「私人」,無法被他人存取觀看,這些推文內容更有60%比例是因為推文對應帳戶狀態被設為「私人」,或是暫停使用,甚至可能被刪除 ,而其餘40%比例則是推文內容被刪除,但帳戶仍維持活躍使用。

在皮尤研究中心的研究報告中,定義無法正常使用的連結,包含點擊連結後出現諸如「204 沒有內容」、「400 錯誤請求」、「404 找不到網頁」、「410 過時網頁」、「500 內部伺服器 錯誤」、「501 伺服器無法回應請求」、「502 無效的閘道」、「503 服務無法使用」,或是「523 源頭無法存取」等狀態。至於「X」服務上的推文狀態,則是以回應「未找到」、「授權錯誤」等狀態判定為主,藉此判斷推文本身是否已被刪除,以及判斷是否因為帳戶本身已被刪除,或是被設為私有、暫停使用,導致推文內容無法被存取。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

本日熱門 本周最熱 本月最熱