18+

終結跨模型切換延遲!NVIDIA推出Nemotron 3 Nano Omni全模態模型 代理型AI效能狂飆9倍

NVIDIA 發表全新的開放式多模態模型 「Nemotron 3 Nano Omni」,這款模型主打將視覺、音訊與語言處理能力「整合於單一系統」,徹底解決過去AI 代理必須在不同獨立模型間切換所造成的嚴重延遲與脈絡流失問題。

根據NVIDIA官方數據,Nemotron 3 Nano Omni在維持高互動性的情況下,其資料輸送量比其他開放式全模態模型高出驚人的9倍。這不僅是技術上的火力展示,更為企業在電腦 操作、文件分析與影音推理等自動化工作流程中,帶來極高的成本效益。

一網打盡視、聽、說:打破跨模型延遲的物理限制

回顧現今多數的AI代理系統運作邏輯:當代理需要處理一段包含聲音、畫面與文字備忘錄的客服通話時,它通常必須依賴三個不同的模型 (一個看圖、一個聽聲音、一個讀字)分別處理,最後再將結果拼湊起來。

這種「分散式」處理不僅會因為反覆的推論運算而嚴重增加延遲,更致命的是,跨模態的情境脈絡往往在傳遞過程中變得支離破碎。

NVIDIA Nemotron 3 Nano Omni的優勢在於其架構設計,採用30B-A3B (混合專家,MoE,Mixture-of-Experts)架構,直接將「視覺」與「音訊編碼器」深度整合在一個模型體內,意味其不再需要外掛獨立的感知模型,就能同時聽懂人話、看懂畫面,並且理解文字。這種「內建」感知的做法,讓它在處理複雜任務時,速度直接飆升 9倍,同時大幅降低企業的運算成本。

三大代理型工作流程火力全開

目前,包含鴻海、Dell、甲骨文與Palantir等科技業者,都已經開始採用或評估這款模型。NVIDIA更直接點名Nemotron 3 Nano Omni在三大「代理型工作流程」中的絕對優勢:

• 電腦操作代理 (Computer Use):就像是一個坐在螢幕前的人類,它能處理高達1920 × 1080原生解析度的輸入,在複雜的圖形使用者介面 (GUI)中自動導航、點擊,並且理解畫面的動態變化。

• 文件智慧 (Document Intelligence):它不僅能讀懂純文字,還能一口氣解讀圖表、試算表、螢幕截圖與混合媒體,讓AI在複雜的企業合規審查中不再「見樹不見林」。

• 影音理解 (Audio and Video Reasoning):在處理監控畫面或客服通話時,它能將「說出的話」與「顯示的畫面」完美同步推理,不會再給出牛頭不對馬嘴的零散摘要。

開放權重與極致的佈署彈性

作為Nemotron 3家族 (包含Nano、Super與Ultra)的最新成員,NVIDIA這次依然選擇「開放」路線。

Nemotron 3 Nano Omni隨附開放的權重、資料集與訓練技術,允許企業透過NVIDIA NeMo等工具進行客製化與微調 (Fine-tuning)。更重要的是,它主打「極致的佈署彈性」:從邊緣運算的NVIDIA Jetson晶片、本地端的DGX Spark工作站,一路到雲端資料中心,都能無縫部署這套輕量化的架構。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

本日熱門 本周最熱 本月最熱