Google公布其通用語言模型研究結果 強調比OpenAI的Whisper有更好語意理解表現
Google稍早公布其去年11月投入的通用語言模型研究結果,其中加入長達1200萬小時語音內容長度,以及280億組訓練參數,同時對應超過300種語言,目前已經能支援超過100種語言識別,未來目標可支援超過1000種語言。
依照Google說明,其通用語言模型採持續自我監督學習,並且不斷進行微調,藉由BEST-RQ演算法在無外部監督情況下持續分析、學習語言結構,自動完成80%比例的學習量。
此外則是透過多目標監督預先訓練模型,包含text injection、BEST-RQ,以及監督式loss函數等方式共同訓練,藉此整合其他資料訓練結果,藉此讓訓練模型能理解語言所描述內容、語意,同時也透過監督式loss函數微調最終輸出結果。
這樣的訓練結果裡,Google表示在沒有透過監督式loss函數進行最終微調,其實就已經能獲得相當好的語意理解與陳述表現,應用在YouTube的語言翻譯功能中,已經能在73種語言翻譯結果的單詞錯誤率 (WER,Word Erroe Rate)實現低於30%比例表現。
在美式英語的理解表現中,Google更說明其通用語言模型相比其他先進語言模型的單詞錯誤率更低,正確率甚至提高6%比例,相比OpenAI提出的大型語言模型Whisper對應的18種語言,其單詞錯誤率平均在32.7%,而Whisper的單詞錯誤率平均在40%以下。
其他部分,Google更強調在對應非裔美籍人士使用英語口語的CORAAL、混合不同口音的SpeechStew,以及對應102種語言的FLEURS測試表現中,在語音辨識結果的正確率都在Whisper之上。而在自動語意翻譯表現部分,Google更強調其通用語言模型在BLEU的分數表現比Whisper更好。
Google目前已經對外通用語言模型相關研究論文,同時也針對研究人員提供此通用語言模型API,藉此作為更多衍生研究應用。
在先前對外說明中,Google認為一旦解決語言理解上的隔閡,將有利於推動更多應用發展機會,同時也能促使更多服務吸引眾人使用。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
留言