AI(人工智慧)的時代已經來臨,在非營利組織 OpenAI 的聊天機器人 ChatGPT 開放使用 6 個月內,許多全球規模的頂尖公司已將 AI 相關技術導入工作中,藝術創作者也爭先恐後訓練深度學習模型。
本站曾報導 AI繪圖在動漫二創圈的爭議,遊戲公司也開始用 AI 開發新作,然而隨著越來越多人使用 AI 製作內容,電腦的作品在網路上激增,且被後續的使用者拿來訓練自己的 AI,來自英國和加拿大的研究人員發現「模型崩潰」的現象,成果公開在 arXiv 期刊網站,「我們發現在 AI 訓練過程,使用 AI 生成的內容來訓練模型,會導致果不可逆轉的缺陷。」
研究人員聚焦「文字訓練文字」「圖像到圖像」的 AI 生成模型得出結論,「從其他 AI 模型生成內容中學習,會導致(訓練中的)模型崩潰,出現退化過程,隨著時間推移,模型會忘記真正的基層資料設置……整個過程不可逆,即使舊近乎理想的長期學習條件來看也是如此。」
簡單來說,長期下來,用 AI 產物訓練 AI,原本資料當中的錯誤成分會重複合併,導致深度學習模型進一步透過「錯誤的」方式感知現實,該論文的主要作者之一 Ilia Shumailov 表示,「我們驚訝地觀察到模型崩潰發生的速度有多快:可以迅速忘記他們最初學習的大部分原始資料。」
該論文的另一位作者,劍橋大學與愛丁堡大學安全工程學系教授 Ross Anderson,在一篇討論該研究的部落格文章寫到,「就如同人類散步在海洋中的塑膠垃圾,或是大氣中的二氧化碳,我們將用『廢話』(blah)填滿網際網路,這將使透過網路抓取資料,來訓練新模型的過程更加困難。」
他還提醒,這個現象會成為那些已經投入訓練 AI 的公司,或掌控大規模人機互動機會(如 ChatGPT)的公司的優勢,因為它們能掌控用來訓練或輸出的資料庫,「事實上,我們已經看到 AI 新創公司在 Internet Archive 尋找訓練資料庫。」
該論文研究者 Ilia Shumailov 表示,人們去感受、體驗世界產生的原生內容,可能多少與現實世界有所差異(本質上的偏差),但 AI 更誇張,「電腦生成模型往往過度學習(overfit)流行資料(大宗的數據),時常誤解或扭曲較少的資料。」
他向外媒 VentureBeat 解釋,以機器學習模型在 100 隻貓的圖庫進行訓練的案例,「其中 10 隻貓是藍毛,90 隻貓是黃毛,該模型意識到黃貓更普遍,但也理解成藍貓比實際上更黃,當被要求產出新內容時,結果就會提供一些綠貓來。」
「長時間下來,藍毛貓的原始特徵會在連續的訓練週期中逐漸消失,從藍色變成綠色,最後變成黃色。這種漸進的扭曲,和少數數據特徵的丟失,就是模型崩潰。為防止這種情況,重要的是要確保少數群體在資料庫中的公平與代表性,無論是在數量上,還是在對獨特特徵的準確描述。」
當 AI 模型生成的內容,最終污染了後續模型的訓練庫時,發生模型崩潰的情況聽起來滿合理的,但還有許多其他部分會有更嚴重的影響,例如基於性別、種族或其他敏感屬性的歧視,AI 會逐步丟失之前學的到資料,根據它們強化的「信念」來曲解現實。
研究人員還發現,即使訓練模型的過程中,以「減少訓練週期的多次迭代」來避免這種情況,模型崩潰仍然會發生,因為 AI 開始產生錯誤反應,以避免資料頻繁訓練。
作為對策,該論文指出,「保留原始資料庫或人類生成的資料的副本,並根據這些資料定期重新訓練,以避免與 AI 生成內容混淆。」或者,從頭開始用原始數據刷新 AI 的腦袋。
Shumailov 指出,為了防止模型崩潰,重要的是要保證 AI 訓練時,準確描述出原始資料的特徵,在資料庫中區隔少數樣本、強調其代表性,「即使用 10% 的人類原生數據,來訓練後面產出的模型(subsequent generations),模型崩潰仍然會發生,只是不會那麼快。」