18+

為上千萬閩南語族群 臉書開發閩南語與英語翻譯

Meta的董事長兼執行長祖克柏,最近其研發團隊成功開發閩南語的即時語音翻譯系統。(路透)
Meta的董事長兼執行長祖克柏,最近其研發團隊成功開發閩南語的即時語音翻譯系統。(路透)

Meta研究團隊宣布成功開發「英語與閩南語」翻譯系統,Meta(臉書)董事長祖克柏還示範了一段兩語言之間的即時翻譯視頻。Meta宣稱,今後無論人們身處何地,口語交流都能將他們聚集在一起。

澎湃新聞「未來2%」引述Meta官網報導,閩南語因為沒有文字,Meta的研究團隊利用普通話作為中間語言來建立偽標籤,首先將英語(或閩南語)語音翻譯成普通話文本,然後再翻譯成閩南語(或英語),並將其加入訓練資料。

報導稱,世界上大約7000種已知的語言中,有近一半的語言仍然在被使用,其中40%沒有廣泛的書寫系統。這些沒有文字的語言給現代機器學習翻譯系統帶來了一個獨特的問題,因為它們通常需要先將口頭語言轉換為書面文字,翻譯後再將文字還原為語音,但Meta公司10月19日宣佈,已經通過其最新的開源語言人工智慧(AI)解決了這個問題。

當中的閩南語作為Meta通用語音翻譯器(UST)專案的一部分,Meta 為閩南語建立了第一個AI驅動的語音翻譯系統,祖克柏與其員工並在視頻中展示了一段31秒閩南語和英語之間對話的即時翻譯。

員工(英語):「嗨,馬克,你知道嗎,我們團隊創建了首個支持口語(無文字)翻譯的系統?」

祖克柏(英語):「很棒,有成百上千萬人在說閩南語,但因為沒有標準的書寫系統,給建立一個這樣的翻譯系統帶來巨大挑戰。」系統隨後即時翻譯成閩南語。

報導稱,該系統目前僅允許講閩南語的人與講英語的人交談,儘管很生硬。該模型一次只能翻譯一個完整的句子,但祖克伯相信,這項技術最終可以應用於更多語言,並將改進到提供即時翻譯的程度。

Meta還強調了這項技術面臨的挑戰。研究人員稱,收集足夠的資料是他們建立閩南語翻譯系統時面臨的一個重大障礙。「閩南語是一種所謂的低資源語言,這意味著與西班牙語或英語相比,沒有大量的訓練資料可供利用。此外,英語到閩南語的翻譯人員相對較少,這使得收集和注釋資料以訓練模型變得困難」。

此外,對於像閩南語這樣的口頭語言,評估語音翻譯也面臨挑戰。為了能夠進行自動評估,Meta開發了一個系統,將閩南語轉寫成一個標準化的語音符號。

Meta公司表示,「我們希望最終能夠實現多種語言的即時語音到語音翻譯。我們相信,無論人們身處何地,口語交流都能將他們聚集在一起—即使是在元宇宙」。

本日熱門 本周最熱 本月最熱