終結跨模型切換延遲！NVIDIA推出Nemotron 3 Nano Omni全模態模型代理型AI效能狂飆9倍

2026-04-30 07:17

聯合新聞網／ 楊又肇

NVIDIA 發表全新的開放式多模態模型「Nemotron 3 Nano Omni」，這款模型主打將視覺、音訊與語言處理能力「整合於單一系統」，徹底解決過去AI 代理必須在不同獨立模型間切換所造成的嚴重延遲與脈絡流失問題。

根據NVIDIA官方數據，Nemotron 3 Nano Omni在維持高互動性的情況下，其資料輸送量比其他開放式全模態模型高出驚人的9倍。這不僅是技術上的火力展示，更為企業在電腦操作、文件分析與影音推理等自動化工作流程中，帶來極高的成本效益。

一網打盡視、聽、說：打破跨模型延遲的物理限制

回顧現今多數的AI代理系統運作邏輯：當代理需要處理一段包含聲音、畫面與文字備忘錄的客服通話時，它通常必須依賴三個不同的模型 (一個看圖、一個聽聲音、一個讀字)分別處理，最後再將結果拼湊起來。

這種「分散式」處理不僅會因為反覆的推論運算而嚴重增加延遲，更致命的是，跨模態的情境脈絡往往在傳遞過程中變得支離破碎。

NVIDIA Nemotron 3 Nano Omni的優勢在於其架構設計，採用30B-A3B (混合專家,MoE,Mixture-of-Experts)架構，直接將「視覺」與「音訊編碼器」深度整合在一個模型體內，意味其不再需要外掛獨立的感知模型，就能同時聽懂人話、看懂畫面，並且理解文字。這種「內建」感知的做法，讓它在處理複雜任務時，速度直接飆升 9倍，同時大幅降低企業的運算成本。

三大代理型工作流程火力全開

目前，包含鴻海、Dell、甲骨文與Palantir等科技業者，都已經開始採用或評估這款模型。NVIDIA更直接點名Nemotron 3 Nano Omni在三大「代理型工作流程」中的絕對優勢：

• 電腦操作代理 (Computer Use)：就像是一個坐在螢幕前的人類，它能處理高達1920 × 1080原生解析度的輸入，在複雜的圖形使用者介面 (GUI)中自動導航、點擊，並且理解畫面的動態變化。

• 文件智慧 (Document Intelligence)：它不僅能讀懂純文字，還能一口氣解讀圖表、試算表、螢幕截圖與混合媒體，讓AI在複雜的企業合規審查中不再「見樹不見林」。

• 影音理解 (Audio and Video Reasoning)：在處理監控畫面或客服通話時，它能將「說出的話」與「顯示的畫面」完美同步推理，不會再給出牛頭不對馬嘴的零散摘要。

開放權重與極致的佈署彈性

作為Nemotron 3家族 (包含Nano、Super與Ultra)的最新成員，NVIDIA這次依然選擇「開放」路線。

Nemotron 3 Nano Omni隨附開放的權重、資料集與訓練技術，允許企業透過NVIDIA NeMo等工具進行客製化與微調 (Fine-tuning)。更重要的是，它主打「極致的佈署彈性」：從邊緣運算的NVIDIA Jetson晶片、本地端的DGX Spark工作站，一路到雲端資料中心，都能無縫部署這套輕量化的架構。

《原文刊登於合作媒體mashdigi，聯合新聞網獲授權轉載。》

📌 數位新聞搶鮮看！