Meta開源Omnilingual ASR語音基座模型支援逾1600種語言、導入70億規模參數語音編碼器

2025-11-15 08:52 聯合新聞網楊又肇

Meta AI FAIR團隊稍早發表其在自動語音辨識 (ASR) 領域的最新重大成果：「Omnilingual ASR」。這是一套號稱能為超過1600種語言提供自動語音辨識能力的模型套件，其規模與品質均達業界新高。

Meta強調，此舉將透過一個通用的轉錄系統，解決ASR技術與資源過度集中在少數高資源語言的問題，讓高品質的語音轉文字技術能惠及代表性不足的語言社群，打破數位鴻溝。

導入70億規模參數wav2vec 2.0，同步開源模型與資料集

配合此次發表，Meta同步開源了一系列相關的關鍵資產 (均在Apache 2.0許可下發布)，包含：

•Omnilingual ASR模型家族：提供多種尺寸，從專為低功耗裝置設計的3億組參數的輕量級版本，到提供頂級精度的70億組參數模型。

•Omnilingual wav2vec 2.0 基礎模型： 一個擴展至70億組參數的大規模多語言語音表徵模型 (Speech Representation Model)，可作為ASR之外其他語音任務的基座。

•Omnilingual ASR Corpus (語料庫)：一個大型資料集 (CC-BY 許可)，包含了350種服務欠缺 (under-served) 語言的轉錄語音。

LLM-ASR架構達成最先進模型，78%語言錯誤率低於10%

為解決ASR擴展的技術瓶頸，Omnilingual ASR引入了兩種架構。首先，團隊將其wav2vec 2.0語音編碼器 (encoder) 首次擴展至70億組參數，從大量未轉錄的語音中生成豐富的多語言語義表徵。

接著，團隊建構了兩種解碼器 (decoder) 變體：一種是傳統的CTC (連接時序分類Connectionist Temporal Classification)；另一種則是利用了 Transformer解碼器，稱為「LLM-ASR」。

根據Meta公布研究論文，採用LLM-ASR方法的70億組參數系統，在超過1600種語言上達到了最先進模型效能 (SOTA,State-of-the-Art)，其中78%的語言其字符錯誤率 (CER) 低於10%。

導入「自帶語言」(Bring Your Own Language) 概念

此次Omnilingual ASR最大的突破之一，在於改變了新增語言的傳統範式 (paradigm)，引入了「自帶語言」 (Bring Your Own Language)的概念。這得益於其受LLM啟發的系統，導入了強大的「上下文學習能力」 (in-context learning)。

實務上，這意味著使用一種目前不被支援語言的用戶，僅需提供少數幾個成對的音訊-文本樣本 (audio-text samples)，AI 就能透過這些上下文範例，獲得可用的轉錄品質，而無需進行大規模的模型微調 (fine-tuning)、專業知識或高階運算資源。此舉被視為能讓「社群驅動」 (community-driven) 的語言擴展成為可能。

攜手在地夥伴，收集350種低資源語言

為覆蓋那些幾乎沒有數位足跡的語言，團隊除了整合公開資料集，也與在地組織合作 (例如Mozilla基金會的Common Voice、Lanfrica/NaijaVoices等)，直接與當地社群協作，招募並補償母語者提供語音紀錄。

這部分委託收集的語料庫作為Omnilingual ASR Corpus發布，是目前針對超低資源 (ultra-low-resource) 自然語音ASR所組建的最大資料集之一。

目前，相關的模型、資料集、轉錄工具Demo與語言探索Demo，都已透過GitHub、Hugging Face與Meta AI網站等管道對外釋出。

《原文刊登於合作媒體mashdigi，聯合新聞網獲授權轉載。》

📌 數位新聞搶鮮看！

　訂閱《科技玩家》YouTube頻道！
💡 追新聞》》在Google News按下追蹤，科技玩家好文不漏接！
📢 獨／Gogoro車主沒騎車2年被罰5萬！1關鍵網全不挺官方回應了
 📢 Dyson兩大空氣清淨機開箱！小鋼炮對決衛星站滅甲醛、揪惡臭
 📢 嚇！百萬AI機器人突造神「膜拜龍蝦」這平台恐引人類災難…3招防堵
 📢 台人最愛「東京地鐵通票」3月漲價交通套票新價格一次看
 📢 LINE免費貼圖！「馬上有錢」馬年吉祥話快用情人節調情這裡有
 📢 便宜資費懶人包／5G拚399元、這方案折扣2萬 4G吃到飽再漲價

楊又肇

曾任聯合新聞網 (udn.com)數位頻道記者，目前為自由寫手與Mas...

Meta AI 數位足跡

Meta開源Omnilingual ASR語音基座模型支援逾1600種語言、導入70億規模參數語音編碼器

導入70億規模參數wav2vec 2.0，同步開源模型與資料集

LLM-ASR架構達成最先進模型，78%語言錯誤率低於10%

導入「自帶語言」(Bring Your Own Language) 概念

攜手在地夥伴，收集350種低資源語言

楊又肇

推薦文章

天才IT報廢SSD硬碟用電鑽打洞完美「描邊」…公司機密仍外洩

導航只用Google地圖？果粉曝蘋果地圖2大優勢：用過回不去

不是詐騙！LINE官方再次點名快做「帳號健檢」沒完成綁定被盜救不回

蘋果深夜發新品！iPhone 17e「入門級完全體」加量不加價、還有M4 iPad Air

這水太深！極客灣踢爆手機性能「iPhone以外全作弊」影片慘遭全網封殺

Apple Watch要常常換新嗎？內行人曝新觀點：沒用1功能不用買

Meta開源Omnilingual ASR語音基座模型 支援逾1600種語言、導入70億規模參數語音編碼器

導入70億規模參數wav2vec 2.0，同步開源模型與資料集

LLM-ASR架構達成最先進模型，78%語言錯誤率低於10%

導入「自帶語言」(Bring Your Own Language) 概念

攜手在地夥伴，收集350種低資源語言

楊又肇

推薦文章

天才IT報廢SSD硬碟 用電鑽打洞完美「描邊」…公司機密仍外洩

導航只用Google地圖？果粉曝蘋果地圖2大優勢：用過回不去

不是詐騙！LINE官方再次點名快做「帳號健檢」 沒完成綁定被盜救不回

蘋果深夜發新品！iPhone 17e「入門級完全體」加量不加價、還有M4 iPad Air

這水太深！極客灣踢爆手機性能「iPhone以外全作弊」 影片慘遭全網封殺

Apple Watch要常常換新嗎？內行人曝新觀點：沒用1功能不用買

Meta開源Omnilingual ASR語音基座模型支援逾1600種語言、導入70億規模參數語音編碼器

天才IT報廢SSD硬碟用電鑽打洞完美「描邊」…公司機密仍外洩

不是詐騙！LINE官方再次點名快做「帳號健檢」沒完成綁定被盜救不回

這水太深！極客灣踢爆手機性能「iPhone以外全作弊」影片慘遭全網封殺