
亞馬遜 宣布推出全新基礎模型 Amazon Nova Sonic,將語音理解與語音生成統一於單一的模型中,使人工智慧應用服務的語音對話表現更貼近真人,並且透過Amazon Bedrock以API形式呼叫使用,可用於服務通話自動化服務,或是涵蓋旅遊、教育、醫療、娛樂等領域的跨產業人工智慧代理服務。
傳統語音應用開發需要同時協調多個模型,例如將語音轉為文字的語音識別模型,搭配理解且生成回應的大型語言模型,以及再將文字轉為音訊呈現的文本轉語音模型,不僅增加開發的複雜性,同時也難以保留自然對話中至關重要的聲音情境和細微差別,如語氣、語調韻律和說話風格等等。
而Nova Sonic 則是捨棄過往使用多個不同模型的設計,將理解與生成功能統一於單一模型中,讓模型能根據語氣、風格等聲音情境,以及口語輸入調整生成的語音回應表現更貼近自然對話語調。
Nova Sonic甚至能理解人類對話的細微變化,包括說話者的自然停頓與猶豫,能在恰當時機做出回應,並能從容應對對話中的插話情況。此模型同時會將語音內容生成文字檔,讓開發者能夠利用這些文本來調用特定工具與API,進而建構更豐富的語音人工智慧代理服務。
透過以下連結,可以感受透過Nova Sonic生成自然語調表現:
• AI agent for travel built on Amazon Nova Sonic
• Enterprise AI assistant built on Amazon Nova Sonic
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
訂閱《科技玩家》YouTube頻道!
💡 追新聞》》在Google News按下追蹤,科技玩家好文不漏接!
📢甩開悠遊卡?北捷10月開放多元支付閘門 1招真能用iPhone快速模式嗶進站
📢 手機壞掉不能換SIM卡?NCC疑新規定「90天2次」 他傻眼曝倒霉時間軸
📢 Switch 2完整拆解!Joy-Con 2控制器仍會遇上飄移問題
📢 TORRAS COOLiFY Cyber、COOLiFY 2S AI頸掛空調開箱!實測戶外超涼 還能解落枕
📢 他逛光華商場驚覺變無聊又被盤!過來人羞曝「朝聖攻略」:好吃又好玩
📢 iPhone 17改名iPhone 2025?他搖頭揭背後「藏大招」 賺錢金頭腦原理曝