![](https://pgw.udn.com.tw/gw/photo.php?u=https://uc.udn.com.tw/photo/author/photo/966.jpg&x=&y=&sw=&sh=&exp=3600&w=100)
Stability AI 宣布釋出能以文字 描述自動生成聲音 內容的Stable Audio開源版本,並且以Stable Audio Open為稱,將可依照文字內容生成約47秒長度聲音內容。
Stable Audio Open模型 是以超過48萬筆聲音紀錄進行訓練,其中超過90%資料源自免費 聲音資料庫Freesound,同時也有部分聲音源自Free Music Archive (FMA),並且強調所有聲音內容都事先合法取得使用許可。
至於文字內容理解部分,則是透過預先訓練的T5 (Text-to-Text Transfer Transformer)模型處理文字分析,並且產生後續相應文本內容,進而讓Stable Audio Open模型產生相應聲音內容。
透過此開源模型生成聲音內容約達47秒長度,Stability AI表示將能用於產生環境音效、模擬聲音,或是即興聲音內容,除了用於內容創作,也能用於補足所需聲音片段。
跟Stable Audio比較的話,除了可生成聲音內容長度有明顯差異,聲音內容也不會進一步將音質等細節最佳化。而Stable Audio目前已經發展至2.0版本,不僅生成聲音內容長度可達3分鐘,更可生成44.1kHz音質內容。
Stable Audio Open目前已經可透過開源模型託管平台 Hugging Face取得1.0版本。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 2月4G、5G便宜資費懶人包/4G不限速吃到飽免500!5G上網優惠只要399
📢 ChatGPT Search全面開放免費用!搜尋方法教學 3大招做預設搜尋引擎
📢 DeepSeek APP真的不安全!「資料傳送到中國」、還關掉蘋果iOS版保護功能
📢 LINE免費貼圖8款!開工送2款「終身免費用」 精品款爽用180天
📢 2025年最新!日本家電折價券最高18%折扣 7家電器店一次收藏
📢 【開箱】Ikarao Break X2行動KTV開箱!8小時K歌不中斷 還能當看片神器