
Mozilla從2017年7月開始推動的開源語音 辨識引擎專案同聲計畫 (Common Voice),目前收錄8種台灣原住民族語,其中包含泰雅語、布農語、排灣語、魯凱語、萬山語、茂林語、賽德克語及撒奇萊雅語,累積資料長度超過60小時。
同聲計畫是由Mozilla志工主導專案,目前已經收錄超過全球200種語言 ,其中也包含台灣在地繁體中文,以及台灣閩南語,此次更宣布收錄8種台灣原住民族語,預計會在今年6月開放免費下載。
此次增加台灣原住民族語,將成為Mozilla開放多語言語音倡議 (Open Multilingual Speech initiative)的一部分,致力於支持極低資源社群及原住民族語言。在第一階段,已經增加來自東南亞及其他地區超過70種語言。

而藉由全球最大規模的開放語音資料庫保存台灣原住民族語,Mozilla預期以此催生更具包容性的語音人工智慧 解決方案。Mozilla 台灣社群負責人Irvin Chen 表示:「語言承載著我們的身份與文化。當我們將語言帶入科技領域時,我們不僅是在保存詞彙,更是促使文化的生生不息」。
Mozilla基金會同聲計畫產品總監EM Lewis-Jong表示:「我們很高興看到在地社群為自己的語言行動。同聲計畫是屬於這些社群的專案,體現了開源協作與社群參與的精神,以共同塑造更具道德的人工智慧 (Ethical AI)」。
同聲計畫的語音資料集目前開放任何人免費自由使用,已經被廣泛應用於各種領域,例如開發醫療翻譯軟體 ,或是設計語音應用程式幫助女性行使土地權利等等。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》