微軟打造「VALL-E」人工智慧語音模型 用3秒資料即可模擬真實人聲

聯合新聞網 楊又肇

微軟研究人員在一篇論文中描述名為「VALL-E」的人工智慧語音模型,標榜僅需3秒鐘長度的聲音資料,即可建立模擬聲音本人說話語調,甚至可以加入不同情緒時的說話方式,以及在不同房間等環境下的發聲效果。

依照微軟研究人員說明,此項人工智慧語音模型是以Meta在Libri-light聲音資料庫收錄源自7000多名演講者、長度超過60000小時的英語演講內容進行訓練,藉此讓人工智慧語音模型學習特定聲音念特定文本內容時的音調呈現方式。

在此學習基礎之下,「VALL-E」便可在參考短短3秒長度聲音資料,即可建立以相同聲音說話方式,並且能依照不同情緒進行表達,更可模擬在不同環境下的說話聲音效果。

雖然實際呈現結果中,依然會有部分聲音呈現像是機器發音,但確實有不少聲音呈現結果十分擬真,最主要還是與參考學習樣本是否充足有關,而不同人的習慣發音方式也會有所差異,因此並非所有模擬呈現聲音都相當自然。

為了改善此情況,微軟研究人員表示將持續擴大訓練模型,藉此提高「VALL-E」最終呈現結果更貼近真實。

另外,為了避免「VALL-E」造成不必要影響,微軟並未對外開放「VALL-E」相關編碼內容,同時也強調依循微軟內部人工智慧技術倫理,降低任何潛在風險發生可能性。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

📌 數位新聞這裡看!

 訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢甩開悠遊卡?北捷10月開放多元支付閘門 1招真能用iPhone快速模式嗶進站
📢 手機壞掉不能換SIM卡?NCC疑新規定「90天2次」 他傻眼曝倒霉時間軸
📢 Switch 2完整拆解!Joy-Con 2控制器仍會遇上飄移問題
📢 TORRAS COOLiFY Cyber、COOLiFY 2S AI頸掛空調開箱!實測戶外超涼 還能解落枕
📢 他逛光華商場驚覺變無聊又被盤!過來人羞曝「朝聖攻略」:好吃又好玩
📢 iPhone 17改名iPhone 2025?他搖頭揭背後「藏大招」 賺錢金頭腦原理曝

推薦文章

留言