Mozilla從2017年7月開始推動的開源語音辨識引擎專案同聲計畫 (Common Voice),目前在最新語音資料庫內收錄長達7226小時的語音內容,其中更包含增加14種小眾語言,使得收錄語言數量增加至54種。
就同聲計畫本身立場來看,希望透過收錄大量語言聲音資料,藉此讓語音識別為主的技術有更大開放性與包容性,讓全球更多小眾語言也能像主流語言一樣被重視,並且使小眾語言主要使用者也能透過熟悉交談方式使用新技術。
另一方面,同聲計畫收錄語音內容也能應用在各類語音識別應用技術訓練,例如Mozilla旗下語音轉文字引擎DeepSpeech,便是藉由同聲計畫收錄語音內容進行訓練,同時也能識別不同年齡層、性別,以及各地區口音所呈現語言內容。
目前在收錄長達7226小時的語音內容的資料庫中,總計累積550萬個語音內容片段,平均長度為4.7秒,其中總計長達5591小時長度內容已經透過Mozilla社群確認為有效資料。而在同聲計畫中貢獻最多的語音資料,分別為英文、德文、法文、義大利文與西班牙文,但實際上也包含中文在內亞洲語言,同時也包含不少小眾語言。
除了同聲計畫募集聲音內容,Mozilla現在更提供針對特定情況使用的單字聲音內容,其中蒐集包含數字發音,或是喚醒等用途的特定關鍵字發音內容,總收錄內容長度達120小時,分別由1萬1000人在一個月內以18種語言建立。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
📌 數位新聞搶鮮看!
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 便宜資費懶人包/5G 399元搶市!不限速吃到飽方案比4G划算
📢 CMF Headphone Pro耳罩式耳機開箱!實測動感滑桿聽見動ㄘ動、驚豔降噪高CP
📢 坐飛機遇行充自燃怎麼辦?專家曝溫度控制就用它:亂用1物會更慘
📢 iPhone鬧鐘「沒響」錯過航班!網紅抱怨引出一票苦主 2招避免中招
📢 HTC VIVE Eagle智慧眼鏡開箱!日本實測AI翻譯菜單 聽音樂驚豔、拍出日系照片
📢 懶人包/台灣吉伊卡哇常設店12月27日開幕!13樣新品、贈品、地點一次看
