18+

終結「情境膨脹」與「思考稅」!NVIDIA發表專為代理型AI打造的Nemotron 3 Super開放模型

AI重點

文章重點整理:

  • 重點一:NVIDIA推出Nemotron 3 Super,專為代理型AI設計。
  • 重點二:模型具備1200億參數及混合專家架構,提升效能。
  • 重點三:開放權重及訓練資料集,支持AI開發生態系統。

隨著企業從單純的聊天機器人 全面轉向「多代理系統」 (Multi-Agent Systems),底層AI模型正面臨著前所未有的效能與成本考驗。為了解決這些痛點,NVIDIA 宣布推出全新的「Nemotron 3 Super」模型,這是一款具備1200億參數、採用混合專家 (MoE)架構的開放權重模型。透過提供高達100萬個詞元 (tokens)的超大情境窗口,以及針對NVIDIA次世代Blackwell架構運算平台深度最佳化,Nemotron 3 Super不僅可將資料輸送量提高5倍,更精準解決複雜代理工作流程中的「情境膨脹」與「思考稅」難題。

代理型AI的兩大緊箍咒:情境膨脹與思考稅

為何現有的大型語言模型 (LLM)難以勝任複雜的代理工作?NVIDIA點出企業目前遭遇的兩大發展瓶頸:

• 首先是「情境膨脹」。在多個AI代理協同工作的流程中,系統必須不斷在彼此之間傳遞完整的歷史紀錄、工具輸出結果與中間的推理過程。這導致產生的詞元數量往往是一般對話互動的15倍以上。龐大的資料量不僅讓運算成本飆升,更常導致AI在處理冗長任務時「失憶」或偏離原始目標。

• 其次是「思考稅」 (Thinking Tax)。一個稱職的自主代理,必須在執行任務的每一個步驟進行深度推理。但如果每一個微小的子任務都要呼叫一次千億參數級別的龐大模型,將導致應用程式 運行極度緩慢且成本高昂,根本無法在企業環境中大規模落地。

混合架構發威:Mamba結合Transformer的極致效能

為了解決上述問題,Nemotron 3 Super帶來100萬詞元 (1M Tokens)的超大情境窗口,讓代理能將完整的工作流程狀態保留在記憶中。而在底層架構上,NVIDIA更是火力全開,導入了三大關鍵創新,使其相較前代模型在資料輸送量提升5倍的同時,更讓準確度提升2倍:

• 混合式架構 (Hybrid Architecture):破除單一架構的迷思,Nemotron 3 Super巧妙結合兩種神經網路。以Mamba層負責提供高達4倍的記憶體與運算效率 (尤其適合處理超長文本),並且搭配傳統的Transformer層驅動複雜的高階推理。

• 進階混合專家模型與潛在混合專家模型:雖然模型總參數高達1200億,但在推論階段,每次只會啟動120億個活躍參數,大幅降低運算負擔。更具突破性的是「潛在混合專家模型」 (Latent MoE)技術,能在推論時以「一個專家的運算成本,啟動四個專家模型」來預測下一個詞元,在不增加算力的前提下極致壓榨出更高的準確度。

• 多詞元預測 (Multi-Token Prediction):打破過去一次只能吐出一個字的限制,模型能同步預測多個未來的詞元,讓整體推論速度直接飆升3倍。

針對Blackwell架構最佳化,全面開源力挺生態系

除了軟體架構的革新,Nemotron 3 Super更是NVIDIA針對Blackwell GPU平台量身打造的火力展示。在Blackwell架構運算平台上,該模型能以極低精度的NVFP4格式運行,使其推論速度可達上一代Hopper架構運算平台 (以FP8運行)的4倍之多,同時絲毫不犧牲準確度。

在開源態度方面,NVIDIA這次則顯得極度慷慨。Nemotron 3 Super不僅以寬鬆的授權方式釋放開放權重 (Open Weights),甚至連其超過10兆個詞元的訓練資料集、15個強化學習環境與完整的評估流程研究方法,都對外徹底公開。

目前,包含Perplexity、Amdocs、Palantir、達梭系統與西門子等業者,目前都已經開始佈署Nemotron 3 Super模型,藉此驅動內部軟體開發或垂直領域自動化代理。而企業開發者即日起則可透過build.nvidia.com、Hugging Face,或是Google Cloud、甲骨文、微軟Azure等各大公有雲平台存取這項NVIDIA NIM微服務。

分析觀點

Nemotron 3 Super的推出,再次證明NVIDIA並非只是一家「賣晶片的硬體公司」。

當OpenAI或Anthropic還在為閉源模型的訂閱費爭論不休時,NVIDIA選擇了一條截然不同的戰略:「把最強的軟體與模型免費送給你,只要你繼續買我的硬體」。

這次Nemotron 3 Super最可怕的地方在於其「完全針對NVIDIA自家硬體最佳化」的特性。透過「Mamba+Transformer」混合架構解決過往長文本的記憶體耗損問題,再用NVFP4精度綁定Blackwell GPU的算力優勢,NVIDIA實質上是為未來的「Agentic AI」 (代理型 AI)制定軟硬體一體化的標準規格。連高達10兆詞元的訓練資料集都全數公開,這無疑是對整個開源社群投下了一枚震撼彈,也將極大地加速企業級AI代理走出實驗室、投入實際產線的進程。

不過,真正殺招可能還是傳聞將在GTC 2026期間公布、主打企業級AI代理應用的NVIDIA版綠色龍蝦「NemoClaw」,其中可能打破硬體綁定,讓企業即便底層不是使用NVIDIA的專屬AI晶片,也能無縫接入。而此技術似乎已經開始向Salesforce、Cisco、Google、Adobe與CrowdStrike等企業軟體巨頭推廣,具體細節則預期會在GTC 2026期間揭曉。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

精華 FAQ

  • Nemotron 3 Super模型擁有1200億參數,採用混合專家架構,提供高達100萬詞元的情境窗口,並能在NVIDIA的Blackwell架構上運行,效能顯著提升。

  • NVIDIA針對情境膨脹和思考稅問題,推出Nemotron 3 Super模型,透過混合架構和潛在混合專家技術,有效降低運算負擔,提升準確度和運行效率。

  • NVIDIA以開放權重和訓練資料集來支持Nemotron 3 Super,這不僅促進開源社群發展,還使企業能夠快速部署和優化AI應用,推動實際產線的應用。

本日熱門 本周最熱 本月最熱