18+

不只是生音樂!Sony AI發表專為「聲音特效」打造的AI模型Woosh 文字、影片都能一鍵配音

在生成式AI 席捲圖像與文字領域後,聲音生成的技術也正快速演進。但目前多數的AI聲音模型都聚焦於「音樂創作」,或是「文字轉聲音」 (TTS),對於電影、遊戲 與影片製作中不可或缺的「聲音特效」 (Foley / Sound Effects),卻仍有不足。為了滿足此類需求,Sony AI實驗室近期發表一項名為「Woosh」的基礎模型

這套專為擬真音效量身打造的系統,不僅能透過純文字描述精準生成雷聲、腳步聲或引擎轟鳴,甚至具備「看影片自動配音」的多模態能力,預期將為影視與遊戲的後期製作流程帶來革命性的改變。

Woosh的四大核心引擎:從編碼到影像理解

「聲音特效」與音樂或人聲有著本質上的不同。它需要極高的物理真實感、精準的時間控制,以及極度細微的頻率變化。為了達成這個目標,Sony AI團隊沒有選擇套用現成的模型,而是由底層重新打造了一個由四個模組組成的技術生態系:

數位翻譯「Woosh-AE」:

這是一個基於VOCOS架構的音訊編解碼器,其未採用傳統的破壞性壓縮,而是保留聲音的連續性與相位資訊。在測試中,它的重建音質遠勝目前開源的主流模型,梅爾頻譜距離 (Mel-spectrogram distance)表現甚至比StableAudio-Open低至85%,確保生成的音效不會有「過假」的數位失真。

文字理解專家「Woosh-CLAP」:

這個模組負責聽懂人類的「文字需求」,其結合RoBERTa-Large語言模型與PaSST音訊模型,透過「對比學習」 (Contrastive Learning)建立文字與聲音的連結。當輸入「狗叫聲」時,它能精準抓取對應的聲音特徵。

音效魔法工坊「Woosh-Flow」:

這是文字轉語音 (Text-to-Audio)的核心生成器,採用比傳統擴散模型 (Diffusion)更高效的「流匹配」 (Flow-matching)架構。為了達到商業應用的即時性,Sony還開發了蒸餾版本「Woosh-DFlow」,將原本需要100步的生成過程,大幅壓縮至僅需4步即可完成,卻仍可維持頂尖音質。

影音完美協奏「Woosh-VFlow」:

這是Woosh最具商業價值的突破點,透過結合SynchFormer影像模型,讓Woosh擁有「視覺能力」。只要輸入一段無聲的遊戲畫面或電影剪輯,系統就能分析每秒的畫面內容,自動生成與動作完全同步的腳步聲、碰撞聲或環境音,實現真正的「看影片配音」。

專業領域的壁壘:資料品質決定一切

這份研究同時揭露了一個有趣的產業現狀:訓練資料的純度,決定AI音效的專業度。

研究團隊發現,使用公開資料集 (通常混雜了背景音與人聲)訓練出來的模型,在面對專業音效庫的測試時表現差強人意。反之,當他們使用專業、純淨的版權音效庫訓練「私有模型」時,其精準度與檢索召回率暴增248%。證明在專業的聲音特效領域,高品質的訓練資料依然是各大廠商難以被輕易跨越的護城河。

開源發表,推動創作平權與無障礙體驗

令人振奮的是,Sony AI團隊選擇將Woosh系統作為開源專案發表 (包含推理程式碼與預訓練權重),讓全球開發者與內容創作者都能直接使用這項技術。

在未來,不論是預算有限的獨立遊戲開發者、YouTube創作者,或是Podcast製作人,都能透過簡單的文字指令或影片輸入,獲得高品質且免除版權爭議的專屬音效。此外,這項技術在「無障礙領域」也深具潛力,例如可自動為視覺影像生成對應的聲音環境描述,協助視障人士更直覺地感受數位內容。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

本日熱門 本周最熱 本月最熱