講台語也能通!Meta打造全新AI語音翻譯系統 台語英語即時互譯太神了
Meta創辦人兼執行長馬克祖克柏透過Facebook發佈了一段影片,神奇地示範了閩南語與英語的語音即時互譯成果,而與他一同示範這段內容的,正是來自台灣的Meta軟體工程師陳鵬仁,這個全新的AI語音翻譯技術除了是人工智慧運用上的一大突破之外,在國際社群平台上聽到熟悉的在地腔調,也格外令人感動。
陳鵬仁開發這個技術的背後動力,正是來自父親,「我希望我爸跟所有人溝通時都用台語對話,這是他最熟悉的語言。」在台灣長大、說中文的他,深深地了解語言障礙將影響大家的溝通能力,平常慣用台語的父親,雖然也可以聽、說中文,但若是討論比較複雜的主題時,說話的速度就會比較慢。因此,透過自身的專業,陳鵬仁開始推動全新的技術發展,讓閩南語及英文之間得以相互翻譯。
研發這個系統最大的困難點在於,過往的AI翻譯主要著重於各種書寫語言,而建立標準技術需有大量的書寫文字來訓練AI模型,因此,對閩南語這類主要是以口語表達,而沒有標準或廣泛使用的書寫文字系統的語言,要打造人工智慧技術翻譯系統,便格外充滿挑戰。
目前全球有近5,000萬人口在使用閩南話,但並未有足夠的訓練資料庫,且將英語翻譯成閩南語的翻譯人員相對來說很少,因此更難以蒐集資料並加上註解來訓練模型。Meta指出,他們是利用中文作為中間語言,以建立偽標籤和人工翻譯,利用了資源充足的相似語言的資料,以大幅改善模型成效。
另一個產生訓練資料的作法則是「語音探勘」,Meta使用預先訓練好的語音編碼器,便能透過編碼方式將閩南語語音嵌入內容加入到其他語言的相同語意空間中,而無須取得閩南語的書寫文字。閩南語語音可以和擁有相似語意嵌入內容的英語語音和文字配對,接著從文字來合成英文語音,產生平行的閩南語和英語語音。
在目前的階段中,這個系統能夠讓使用閩南語的人士與使用英語的人士進行語音對話。雖然該模型仍在開發中,而且每次只能翻譯一個完整句子,但已朝著未來實現為各種語言提供同步翻譯的目標邁開一步。更可喜的是,Meta將會開放閩南語翻譯模型的原始碼,也會公開評估資料集和研究報告,讓其他團隊可以建立更多語言模型,運用AI技術繼續擴展至許多其他有書寫系統和無書寫系統的語言,有助於打破在現實世界和元宇宙中的語言限制。Meta期望,未來所有語言,無論是否可以書寫,都不再是阻礙大家相互理解的障礙。
留言