亞馬遜 宣布推出全新基礎模型 Amazon Nova Sonic,將語音理解與語音生成統一於單一的模型中,使人工智慧應用服務的語音對話表現更貼近真人,並且透過Amazon Bedrock以API形式呼叫使用,可用於服務通話自動化服務,或是涵蓋旅遊、教育、醫療、娛樂等領域的跨產業人工智慧代理服務。
傳統語音應用開發需要同時協調多個模型,例如將語音轉為文字的語音識別模型,搭配理解且生成回應的大型語言模型,以及再將文字轉為音訊呈現的文本轉語音模型,不僅增加開發的複雜性,同時也難以保留自然對話中至關重要的聲音情境和細微差別,如語氣、語調韻律和說話風格等等。
而Nova Sonic 則是捨棄過往使用多個不同模型的設計,將理解與生成功能統一於單一模型中,讓模型能根據語氣、風格等聲音情境,以及口語輸入調整生成的語音回應表現更貼近自然對話語調。
Nova Sonic甚至能理解人類對話的細微變化,包括說話者的自然停頓與猶豫,能在恰當時機做出回應,並能從容應對對話中的插話情況。此模型同時會將語音內容生成文字檔,讓開發者能夠利用這些文本來調用特定工具與API,進而建構更豐富的語音人工智慧代理服務。
透過以下連結,可以感受透過Nova Sonic生成自然語調表現:
•AI agent for travel built on Amazon Nova Sonic
•Enterprise AI assistant built on Amazon Nova Sonic
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢 POCO F8 Ultra開箱!驚豔Bose低音砲 實測鏡頭拍峇里島日出、捕捉厭世猴群
📢 LINE吃200GB空間!刪1群組「全當機」靠它救回 他曝安心刪除方法
📢 iPhone用戶小心!他「打FaceTime」慘交5700元電話費 改1設定防中招
📢 iPhone 18系列「史上最難選」!打破賈伯斯策略 選機方式大變動
📢 DJI Neo 2開箱!實測新手操作 空拍日出、環繞、跟拍1秒上手
📢 懶人包/LINE帳號換機方法一文看懂!開始前檢查3件事、1錯誤害資料救不回
