Google發表新AI語音技術研究語言障礙者的話更能聽懂

2019-07-22 22:21

聯合新聞網／ INSIDE

近日，Google在官方文章上再公布了新的深度神經網路研究，計劃名為Parrotron。圖／Google

今年 I/O 上Google展示了對語言障礙者的最新計劃，Project Euphonia 團隊透過AI幫助語言障礙者也能進行溝通，過去像是漸凍人、中風、帕金森氏症等神經系統疾病患者在溝通非常有挑戰性。

Project Euphonia團隊透過 Google 軟體將錄下的語音轉成聲譜圖，或以更視覺化的圖像方式來呈現聲音，再利用聲譜圖訓練系統，優化機器辨識這些非典型的語音資料。

近日，Google在官方文章上再公布了最新的進度，新的深度神經網路研究，推出新的計劃Parrotron，Parrotron由單個端到端深度神經網絡訓練而成，能將自非典型語音模式的說話者（可能是漸凍人、聽障者）一般人與電腦較難辨識的語音，直接轉換為流利的合成語音，且過程完全不需要另外生成文字，跳過語音辨識的中間步驟。

在今年Google東京舉辦的 AI 機器學習論壇上，Google 也在多個「AI for social good」專案中，將Project Euphonia作為案例，表達出用科技讓身障者能重新與世界連結的決心，過去自使用Google Home等語音助理對他們來說是遙不可及的。

Google AI產品經理 Julie Cattiau 說明藉由新的語音辨識模型，語言障礙人士能透過此讓機器聽懂指令，也能用可辨識手勢、眨眼等的電腦視覺模型，讓語言障礙者更獨立表達。

Google在新文章中指出，Euphonia已經建立了語言障礙者個性化的語音轉文字模型，輸出語音到TTS系統再從結果合成語音，將聾啞人士的單字錯誤率從 89％降低到 25％，實現與Parrotron類似的目標。

然而，在這樣的方法中，機器可能選擇到不正確的單字產生具有其他含義的單字/句子，讓溝通上產生誤差。而藉由Parrotron端到端語音訓練，即使出現錯誤，生成的輸出語音在聲音上聽起來和輸入的語音會更接近。

Google 找來患有失聰的工程師Dimitri Kanevsky，他也是Google語音研究員，錄製了15小時的語音資料庫，透過 Parrotron 系統的幫助，不論是語音辨識系統還是人類觀眾，都更聽的懂他的語句。

相較之下於過去的語音模型及數，Parrotron是語言障礙的人士更精準的「傳聲筒」，在論文討論關於Parrotron更多應用，在 Github 中也能找到其他音頻樣本，有興趣的讀者也能前往查看。

《本文作者Anny，原文刊登於合作媒體INSIDE，聯合新聞網獲授權轉載。》

📌 數位新聞這裡看！