Stability AI推出Stable Audio開源版!免費AI生成超過半分鐘的聲音

聯合新聞網 楊又肇

Stability AI宣布釋出能以文字描述自動生成聲音內容的Stable Audio開源版本,並且以Stable Audio Open為稱,將可依照文字內容生成約47秒長度聲音內容。

Stability AI推出Stable Audio開源版本,可以文字免費生成約47秒長度聲音。

Stable Audio Open模型是以超過48萬筆聲音紀錄進行訓練,其中超過90%資料源自免費聲音資料庫Freesound,同時也有部分聲音源自Free Music Archive (FMA),並且強調所有聲音內容都事先合法取得使用許可。

至於文字內容理解部分,則是透過預先訓練的T5 (Text-to-Text Transfer Transformer)模型處理文字分析,並且產生後續相應文本內容,進而讓Stable Audio Open模型產生相應聲音內容。

透過此開源模型生成聲音內容約達47秒長度,Stability AI表示將能用於產生環境音效、模擬聲音,或是即興聲音內容,除了用於內容創作,也能用於補足所需聲音片段。

跟Stable Audio比較的話,除了可生成聲音內容長度有明顯差異,聲音內容也不會進一步將音質等細節最佳化。而Stable Audio目前已經發展至2.0版本,不僅生成聲音內容長度可達3分鐘,更可生成44.1kHz音質內容。

Stable Audio Open目前已經可透過開源模型託管平台Hugging Face取得1.0版本。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

📌 數位新聞搶鮮看!

 訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 Gmail帳號太中二怎麼修改?3步驟換掉Google ID、還有次數限制
📢 難尋4G 599吃到飽「問客服也沒用」!內行5招成功拿低價方案
📢追劇神技!Netflix「隱藏代碼」曝光 輸入5碼韓劇全跳出、還有星爺專屬彩蛋
📢 前進《動物森友會》Xpark海洋生物互動展!動森特典帽子超可愛
📢DJI Osmo Pocket 4開箱!獨旅6大實測福岡、糸島拍照攝影 還能拍富士山超勸敗
📢 小米Xiaomi 17T Pro開箱!徠卡長焦拍攝絕美人像、捕捉排球少年熱血瞬間

楊又肇

曾任聯合新聞網 (udn.com)數位頻道記者,目前為自由寫手與Mas...

AI 模型 文字 聲音 免費 平台

推薦文章