Meta揭曉可快速產生清晰、自然 並且能在後續編輯、調整的語音內容生成模型

聯合新聞網 楊又肇

Meta稍早公布名為Voicebox的語音生成模型,將可透過Flow Matching演算法,從大量原始音訊與轉錄文字進行學習,進而生成自然生動的語音內容。

同時,Voicebox並未限制僅能用於特定領域的語音內容,透過足夠音訊與文字內容即可產生去除噪音、清晰語音,同時還能進行內容編輯、風格轉換,或是輸出不同聲音特色語音內容。

而藉由Flow Matching演算法,即可直接從原始音訊、文字內容進行學習,同時產生語音內容,無須像過往同類型語音生成模型必須事先完成資料學習訓練,並且僅能針對單一語音內容進行訓練操作。

在Flow Matching演算法設計中,更能學習語音與文字之間差異,即便對應相同文字內容,但在不同語音呈現方式,例如語調、語速、口音或重音表現差異,會讓相同文字內容有不同表意。

目前Voicebox是以累積5萬小時的語音錄音訓練結果構成,其中涵蓋英語、法語、西班牙語、德語、波蘭語、葡萄牙語公開錄音內容片段,以及對應文字內容,同時藉由自動生成人工智慧運作模式,不僅能快速學習各類語音發音、朗讀方式,只需輸入一段語音樣本與文字內容,就能以所輸入語音樣本風格朗讀文字,甚至進行後續編輯語調整。

但由於此模型可能會有被人濫用情況,因此目前Meta僅對外公布相關技術,並未公開相關模型與原始碼內容。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

📌 數位新聞這裡看!

 訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 iPhone舊換新價格縮水!這款跌最多 最新換購價一次看
📢 免費貼圖6款!快樂鵝鵝們Q翻、「拒絕出門」對抗炎夏超實用
📢 算命師收錢解惑用ChatGPT「連線宇宙星系」!她見1事再吐血:太省
📢 蘋果iPhone 17全系列顏色「最終版」曝光!5新色爭豔超期待
📢 LINE被封鎖4招檢測!內行人曝別做1動作:直接被好友看光
📢 4G、5G便宜資費懶人包/5G方案399元最划算、4G吃到飽繼續降價

楊又肇

曾任聯合新聞網 (udn.com)數位頻道記者,目前為自由寫手與Mas...

人工智慧 Meta

推薦文章

留言