
Google 近期與卡內基美隆大學、人工智慧 代理技術新創MultiOn共同公布一項關於將合成數據用於大型人工智慧模型訓練的研究報告,指出合成數據將使人工智慧推論能力提升8倍。
在此報告中,研究人員透過兩種合成數據進行分析,其中包含以Gemini 1.5 Pro、GPT-4等大型人工智慧模型產生正確解決方法的正向數據,以及驗證錯誤問題的負面數據。
如果僅以正向數據進行訓練,人工智慧模型所能回答內容顯得有所侷限,其中可能無法全面理解解決問題背後的「思考邏輯」,進而傾向以傳統比對方式推論答案,同時隨著訓練數據量增加,更可能人人工智慧模型學習錯誤解答內容,進而影響模型泛用推論時的正確性。
因此導入負面數據的學習模式,將有利於使人工智慧模型從錯誤中學習,進而在後續推論過程避免出錯,藉此強化其邏輯推論能力。不過,使用負面數據時也可能包含錯誤訊息,因此過程中也必須導正人工智慧模型學習結果,避免將錯誤訊息當作正確內容進行學習。
而透過上述兩種以合成產生數據,將能讓人工智慧更有效地進行學習。研究團隊透過DeepSeek-Math-7B及LLaMa2-7B在內模型,在包含高品質、多種語言形成的小學數學文字題庫GSM8K,以及涵蓋代數、幾何、概率、數論等12500道複雜數學競賽題目構成的MATH數據集進行測試,顯示透過以合成形式產生正面數據與負面數據進行訓練結果,人工智慧模型的邏輯推論能力可大幅提升8倍,意味藉由合成數據訓練將能讓人工智慧模型製作變得更有效率,同時在應用上也會得到更準確無誤推論結果。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 「找車位神器」3秒搜出停車格!5縣市可用 駕駛實測嘆:相見恨晚
📢網紅「小周牙醫」歧視同志言論挨轟!道歉被網抓包IG、YT秒做1事:沒誠意
📢 Switch 2台北體驗會7/5登場!抽選制、超詳細報名規則曝
📢 ASUS VivoWatch 6 AERO智慧手環開箱!指尖量心電圖 睡眠追蹤曝「9成全淺眠」
📢 YouTube會員台灣便宜雙人方案來了!價格比印度貴近4倍 規則一次看
📢 獨/等到iPhone嗶進站!蘋果iOS18.4開放台灣NFC交易 悠遊卡公司回應了