Google公布其通用語言模型研究結果強調比OpenAI的Whisper有更好語意理解表現

2023-03-08 08:09

聯合新聞網／ 楊又肇

Google稍早公布其去年11月投入的通用語言模型研究結果，其中加入長達1200萬小時語音內容長度，以及280億組訓練參數，同時對應超過300種語言，目前已經能支援超過100種語言識別，未來目標可支援超過1000種語言。

依照Google說明，其通用語言模型採持續自我監督學習，並且不斷進行微調，藉由BEST-RQ演算法在無外部監督情況下持續分析、學習語言結構，自動完成80%比例的學習量。

此外則是透過多目標監督預先訓練模型，包含text injection、BEST-RQ，以及監督式loss函數等方式共同訓練，藉此整合其他資料訓練結果，藉此讓訓練模型能理解語言所描述內容、語意，同時也透過監督式loss函數微調最終輸出結果。

這樣的訓練結果裡，Google表示在沒有透過監督式loss函數進行最終微調，其實就已經能獲得相當好的語意理解與陳述表現，應用在YouTube的語言翻譯功能中，已經能在73種語言翻譯結果的單詞錯誤率 (WER,Word Erroe Rate)實現低於30%比例表現。

在美式英語的理解表現中，Google更說明其通用語言模型相比其他先進語言模型的單詞錯誤率更低，正確率甚至提高6%比例，相比OpenAI提出的大型語言模型Whisper對應的18種語言，其單詞錯誤率平均在32.7%，而Whisper的單詞錯誤率平均在40%以下。

其他部分，Google更強調在對應非裔美籍人士使用英語口語的CORAAL、混合不同口音的SpeechStew，以及對應102種語言的FLEURS測試表現中，在語音辨識結果的正確率都在Whisper之上。而在自動語意翻譯表現部分，Google更強調其通用語言模型在BLEU的分數表現比Whisper更好。