不只是生音樂！Sony AI發表專為「聲音特效」打造的AI模型Woosh 文字、影片都能一鍵配音

2026-04-15 07:35

聯合新聞網／ 楊又肇

在生成式AI 席捲圖像與文字領域後，聲音生成的技術也正快速演進。但目前多數的AI聲音模型都聚焦於「音樂創作」，或是「文字轉聲音」 (TTS)，對於電影、遊戲與影片製作中不可或缺的「聲音特效」 (Foley / Sound Effects)，卻仍有不足。為了滿足此類需求，Sony AI實驗室近期發表一項名為「Woosh」的基礎模型。

這套專為擬真音效量身打造的系統，不僅能透過純文字描述精準生成雷聲、腳步聲或引擎轟鳴，甚至具備「看影片自動配音」的多模態能力，預期將為影視與遊戲的後期製作流程帶來革命性的改變。

Woosh的四大核心引擎：從編碼到影像理解

「聲音特效」與音樂或人聲有著本質上的不同。它需要極高的物理真實感、精準的時間控制，以及極度細微的頻率變化。為了達成這個目標，Sony AI團隊沒有選擇套用現成的模型，而是由底層重新打造了一個由四個模組組成的技術生態系：

數位翻譯「Woosh-AE」：

這是一個基於VOCOS架構的音訊編解碼器，其未採用傳統的破壞性壓縮，而是保留聲音的連續性與相位資訊。在測試中，它的重建音質遠勝目前開源的主流模型，梅爾頻譜距離 (Mel-spectrogram distance)表現甚至比StableAudio-Open低至85%，確保生成的音效不會有「過假」的數位失真。

文字理解專家「Woosh-CLAP」：

這個模組負責聽懂人類的「文字需求」，其結合RoBERTa-Large語言模型與PaSST音訊模型，透過「對比學習」 (Contrastive Learning)建立文字與聲音的連結。當輸入「狗叫聲」時，它能精準抓取對應的聲音特徵。

音效魔法工坊「Woosh-Flow」：

這是文字轉語音 (Text-to-Audio)的核心生成器，採用比傳統擴散模型 (Diffusion)更高效的「流匹配」 (Flow-matching)架構。為了達到商業應用的即時性，Sony還開發了蒸餾版本「Woosh-DFlow」，將原本需要100步的生成過程，大幅壓縮至僅需4步即可完成，卻仍可維持頂尖音質。

影音完美協奏「Woosh-VFlow」：

這是Woosh最具商業價值的突破點，透過結合SynchFormer影像模型，讓Woosh擁有「視覺能力」。只要輸入一段無聲的遊戲畫面或電影剪輯，系統就能分析每秒的畫面內容，自動生成與動作完全同步的腳步聲、碰撞聲或環境音，實現真正的「看影片配音」。