18+

Google發表新AI語音技術研究 語言障礙者的話更能聽懂

近日,Google在官方文章上再公布了新的深度神經網路研究,計劃名為Parrotron。圖/Google
近日,Google在官方文章上再公布了新的深度神經網路研究,計劃名為Parrotron。圖/Google

今年 I/O 上Google展示了對語言障礙者的最新計劃,Project Euphonia 團隊透過AI幫助語言障礙者也能進行溝通,過去像是漸凍人、中風、帕金森氏症等神經系統疾病患者在溝通非常有挑戰性。

Project Euphonia團隊透過 Google 軟體將錄下的語音轉成聲譜圖,或以更視覺化的圖像方式來呈現聲音,再利用聲譜圖訓練系統,優化機器辨識這些非典型的語音資料。

近日,Google在官方文章上再公布了最新的進度,新的深度神經網路研究,推出新的計劃Parrotron,Parrotron由單個端到端深度神經網絡訓練而成,能將自非典型語音模式的說話者(可能是漸凍人、聽障者)一般人與電腦較難辨識的語音,直接轉換為流利的合成語音,且過程完全不需要另外生成文字,跳過語音辨識的中間步驟。

在今年Google東京舉辦的 AI 機器學習論壇上,Google 也在多個「AI for social good」專案中,將Project Euphonia作為案例,表達出用科技讓身障者能重新與世界連結的決心,過去自使用Google Home等語音助理對他們來說是遙不可及的。

Google AI產品經理 Julie Cattiau 說明藉由新的語音辨識模型,語言障礙人士能透過此讓機器聽懂指令,也能用可辨識手勢、眨眼等的電腦視覺模型,讓語言障礙者更獨立表達。

Google在新文章中指出,Euphonia已經建立了語言障礙者個性化的語音轉文字模型,輸出語音到TTS系統再從結果合成語音,將聾啞人士的單字錯誤率從 89% 降低到 25%,實現與Parrotron類似的目標。

然而,在這樣的方法中,機器可能選擇到不正確的單字產生具有其他含義的單字/句子,讓溝通上產生誤差。而藉由Parrotron端到端語音訓練,即使出現錯誤,生成的輸出語音在聲音上聽起來和輸入的語音會更接近。

Google 找來患有失聰的工程師Dimitri Kanevsky,他也是Google語音研究員,錄製了15小時的語音資料庫,透過 Parrotron 系統的幫助,不論是語音辨識系統還是人類觀眾,都更聽的懂他的語句。

相較之下於過去的語音模型及數,Parrotron是語言障礙的人士更精準的「傳聲筒」,在論文討論關於Parrotron更多應用,在 Github 中也能找到其他音頻樣本,有興趣的讀者也能前往查看。

《本文作者Anny,原文刊登於合作媒體INSIDE,聯合新聞網獲授權轉載。》

本日熱門 本周最熱 本月最熱