18+

蘋果如何以MLX架構在Mac實現「零雲端、零成本」的裝置端代理AI?

AI重點

文章重點整理:

  • 重點一:蘋果以MLX與MLXLM打造Mac裝置端代理AI
  • 重點二:OpenAI相容伺服器與工具呼叫支援本地工作流。
  • 重點三:M5加速、連續批次與多機分散式推論提升效能。

在人工智慧技術快速更迭的當下,業界正迅速從單純的「對話式AI」轉向具備自主執行與規劃能力的「代理式AI」 (Agentic AI)。而在近期於WWDC 2026期間的開發者展示中,蘋果 MLX團隊工程師Angelus Katharopoulos深入剖析蘋果如何透過專為Apple Silicon打造的MLX (ml-explore)深度學習架構,讓開發者能夠完全在Mac的裝置端流暢運行完整的代理式AI工作流程。

這項技術最核心的吸引力在於:開發者無需依賴任何雲端服務,不需要API密鑰,更不會產生任何基於使用量的運算費用,所有的資料處理與推理都在使用者的硬體上完成,徹底解決資料隱私與營運成本的問題。

從「對話」走向「代理」,實現工作流程全自動化

過去我們熟悉的AI互動,多半是採取「一問一答」的對話模式。如果AI給出的建議需要執行指令或修改程式碼,使用者必須親自去完成後續動作。

不過,目前盛行的代理式AI則是改變這個邏輯,其形成一個自主的「代理迴圈」 (Agentic Loop):使用者給出任務後,代理工具會向語言模型請求決策,接著自動呼叫工具 (例如執行終端機指令、讀取檔案、呼叫API等)來採取行動,並且觀察執行結果,再次交由模型判斷下一步,直到任務完全結束。

而在Mac上,這整個高度耗費算力與資料來回的迴圈,現在已經可以完全在裝置端獨立運作。

建構本地代理AI的四大核心層級

為了讓代理系統能在本地端高效運作,蘋果構建一個四層架構的技術堆疊:

• 基礎層 (MLX架構):這是專為Apple Silicon打造的開源陣列運算框架,負責處理所有底層運算、Metal硬體加速,以及記憶體管理,成為整個裝置端AI運作的基礎。

• 語言模型層 (MLXLM):提供載入、執行、量化與微調大型語言模型 (LLM) 所需全部功能,能直接相容來自Hugging Face上的數千種開源模型。

• 伺服器中介層 (MLXLM Server):這是一個完全相容OpenAI標準的HTTP伺服器。它不僅能透過標準API連接佈署在裝置端的模型,更支援複雜的「工具呼叫」 (Tool Calling)與深度推理模型,可作為任何雲端大型語言模型API資源的替代方案。

• 代理框架層:位於最頂層,任何支援OpenAI聊天完成協定的框架 (如Xcode、Open Code、Ollama等)都能做到開箱即用,無縫對接本地伺服器。

榨乾硬體效能:支援M5晶片加速,或是以Thunderbolt連接的分散式運算資源

代理式AI在運作時,模型需要反覆讀取並處理大量的工具執行結果 (即提示詞處理),這些動輒數十萬個Token的運算,對硬體規格將是一大考驗,而蘋果在此展現軟硬整合的絕對優勢:

 M5晶片與神經加速器:蘋果在M5晶片中引入了專用的神經加速器,使其矩陣乘算速度可達M4的4倍。配合MLX架構針對不同硬體自動選擇最佳運算核心的特性,提示詞處理時間將能被大幅縮短,使得代理工具讀取龐大專案程式碼的速度也能有將近4倍提升幅度。

• 連續批次處理 (Continuous Batching):當一個代理系統同時生成多個「子代理」 (Sub-agents)進行平行工作時 (例如一個查閱文件、一個搜尋程式碼、一個撰寫測試),MLXLM伺服器將可動態地將這些同時湧入的請求進行分組,並且在GPU上並行處理,避免工作處理排程「塞車」,藉此維持整體工作流程的順暢。

• 突破極限的分散式運算:針對參數體積極大 (例如擁有1.6兆組參數、需要800GB記憶體存放容量的DeepSeek模型),單一設備的記憶體可能無法負荷。MLX架構支援透過Thunderbolt或乙太網路,將多台Mac串聯、進行分散式推論。尤其是在macOS 26.2開始導入Thunderbolt RDMA技術後,不僅提供低延遲、高頻寬的裝置數據傳輸速度,在連接四個節點的狀態下,推論速度更可提升高達3倍。

無縫接軌Xcode,重塑開發體驗

這樣的架構設計,在實際應用上將能帶來令人驚豔的開發體驗。在相關展示中,代理工具不僅能在幾分鐘內、從無到有寫出一個具備完整功能的iPad繪圖應用程式,甚至能在使用者提出修改需求時,自動修改程式碼,並且重新進行編譯,直到程式碼內容沒有錯誤為止。

更具指標意義的是,與Xcode的深度整合。開發者只需在Xcode設定中新增一個裝置端的Provider (指向MLX伺服器的裝置端連接埠),Xcode就能直接透過裝置端AI進行尋找,並且修復程式碼錯誤,意味開發者的專案原始碼從頭到尾都能在自有Mac裝置上完成,無須將其上傳至雲端AI進行協同處理,避免程式碼等隱私內容可能會有外洩風險。

總結

透過MLX架構與Apple Silicon硬體的緊密結合,蘋果正在為開發者描繪一個「重度運算也能完全在地化」的未來。這不僅降低導入AI工具的門檻與花費成本,更展示高頻寬統一記憶體與多設備串接技術的巨大潛力,預期將進一步鞏固Mac在專業開發者市場的核心地位。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》

精華 FAQ

  • 核心目標是讓代理式AI完全在Mac裝置端運作,無須雲端API、金鑰或按量計費,並把推理、工具呼叫與資料處理都留在本機完成,以降低成本並強化隱私保護。

  • 架構分為MLX基礎層、MLXLM模型層、相容OpenAI的MLXLM Server,以及上層代理框架,讓模型、伺服器與Xcode等工具可直接串接,形成完整的本地代理迴圈。

  • M5神經加速器、Continuous Batching與Thunderbolt分散式運算,可加速長上下文處理與多子代理並行工作;結合Xcode後,還能在本機自動修碼、重編譯與除錯。

延伸閱讀

敲碗多年成真!蘋果MacBook推「觸控版本」:幾乎100%定局

敲碗多年成真!蘋果MacBook推「觸控版本」:幾乎100%定局

說好不出獨立APP?蘋果高層還原Siri策略髮夾彎真相

說好不出獨立APP?蘋果高層還原Siri策略髮夾彎真相

本日熱門 本周最熱 本月最熱