Google透過Translatotron模型實現更即時、正確,同時貼近原音的口語翻譯效果

聯合新聞網 楊又肇

Google稍早宣布將推出可透過單一流程即可完成兩種語言互譯,無需像過往翻譯必須透過語音識別成文字,再透過機器學習方式完成文字翻譯,最後將翻譯結果文字以語音方式播放,造成翻譯結果可能變得不通順,甚至可去除口語中無謂贅詞,讓口語翻譯效果更好,同時也能提昇翻譯效率。

根據Google公布的全新語言語音模型Translatotron,主要是藉由Seq2seq模型系統直接針對口語內容進行分析、翻譯,並且將翻譯結果轉換為另一種語言,透過相近口音呈現翻譯結果。

由於傳統翻譯透過語音轉文字、以文字內容進行翻譯,再將翻譯結果轉換為語音內容呈現,必須經過幾個處理步驟,因此可能會在各個步驟產生翻譯錯誤、增加無謂贅詞,或是翻譯結果不通順的情況,在Translatotron的設計僅透過單一流程,讓系統能直接針對口語內容進行翻譯,去除無謂的口語贅詞,或是省略無需翻譯的專有名詞、外來用語等細節,藉此提高口語翻譯的正確率與執行效率,並且可藉由人工智慧技術輔助,讓翻譯結果能以自然、貼近原音形式呈現,宛如原本說話者以不同語言闡述內容。

Translatotron模型系統從2016年開始建造,主要想法便是希望能讓口語翻譯更加即時,並且能讓更多人可打破語言隔閡彼此交談。而在Seq2seq模型系統設計裡,主要是以多任務目標學習方式,分別預測來源與目標內容,藉此加快語言即時翻譯效率。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

Google

推薦文章

留言