絕不拋下任何語言 Meta打造可翻譯200種不同語言的NLLB-200 AI模型

2022-07-08 18:08

聯合新聞網／ 楊又肇

以「絕不拋下任何語言」 (No Language Left Behind)為宣言，Meta宣布打造可翻譯200種不同語言的NLLB-200 AI模型，強調是全球第一個以單一模型即可對應多數語言翻譯的設計，藉此協助更多人在社群平台上跨語言互動，同時也能提高未來元宇宙中互動體驗。

未來NLLB-200 AI模型不僅將應用在Facebook動態消息、Instagram及其他平台，藉此對應翻譯超過250億則內容，讓使用者能透過單鍵即可將內容轉換成自己熟悉的語言，Meta更宣布對外開源NLLB-200 AI模型、多對多評估資料集FLORES-200、模型訓練程式碼，以及用於重建訓練資料集的程式碼，並且向非營利機構提供20萬美元補助金，藉此推廣NLLB-200 AI模型實際應用。

目前NLLB-200 AI模型已經可翻譯200種不同的語言，包括許多目前翻譯工具仍無法支援的非洲語言，以及其他少數語言，同時相較於現有其他翻譯工具的翻譯品質平均約高出44%，尤其在部分非洲和印度語言中，提升幅度相較最新的翻譯系統更提升70%。

另外，Meta更與維基媒體基金會 (Wikimedia Foundation)合作，透過NLLB-200 AI模型改善維基百科的翻譯系統，並且透過開放模型原始碼，讓其他研究人員可以將此研究擴大至更多語言，並且打造更多具包容性的技術。

為了精進NLLB-200 AI模型，Meta透過多對多評估資料集FLORES-200，讓研究人員可以評估NLLB-200 AI模型在各語言中的運作成效，確保提供高品質的翻譯內容。

而確保能以負責任的方式發展此項計畫，Meta更與語言學家、社會學家、倫理學家等跨學科團隊合作，深入了解各種語言，並且避免翻譯結果涉及負面內容風險，其中包含透過建立了負面內容清單，以便偵測篩選具褻瀆性詞語，或可能有冒犯性的內容，同時將此清單分享給其他研究人員，藉此降低研究人員在建置模型中可能面臨風險。