AI重點
文章重點整理:
- 重點一:Gemini Embedding 2 是首款原生多模態嵌入模型,支持多種資料型態。
- 重點二:該模型可直接處理文字、圖像、影片、音訊與文件等資料。
- 重點三:開發者可靈活調整向量維度以平衡效能與儲存成本。
Google DeepMind宣布推出全新「Gemini Embedding 2」,這是Google首款建立在Gemini 架構上的「原生多模態」 (Natively Multimodal)嵌入模型 (Embedding Model)。有別於過去開發者必須依賴純文字模型或將不同媒體轉換為文字才能進行檢索,Gemini Embedding 2破天荒地將文字、圖像、影片、音訊與文件直接映射到同一個向量空間中。這項技術目前已透過Gemini API與Vertex AI開放公開預覽 (Public Preview),預期將徹底顛覆RAG (檢索增強生成)、語義搜尋與數據叢集等底層架構的開發體驗。
五大資料型態一次到位,支援「交錯輸入」理解
在過去建構RAG系統時,如果資料庫裡同時有圖片與文字,開發者通常需要先用另一個AI把圖片「描述」成文字,再進行向量化轉換。這種轉換過程不僅耗時,更會流失大量的原始語義細節。
Gemini Embedding 2憑藉Gemini強大的多模態理解能力,直接支援以下五大資料型態的嵌入轉換:
• 文字 (Text):支援高達8192個輸入Token的廣闊上下文。
• 圖像 (Images):每次請求最多可處理6張圖片 (支援PNG與JPEG格式)。
• 影片 (Videos):支援長達120秒的影片輸入 (支援MP4與MOV格式)。
• 音訊 (Audio):最具突破性的一點!模型能「原生」攝取並嵌入音訊資料,完全不需要中間的文字轉錄步驟,這意味著語音中的語氣或環境音也能被精準捕捉。
• 文件 (Documents):支援直接嵌入長達6頁的PDF文件。
更強大的是,Gemini Embedding 2支援「交錯輸入」 (Interleaved input)。開發者可以在單次API請求中,同時丟入「圖片+文字」,或是「影片+音訊」,模型能原生理解這些不同媒體型態之間複雜且微妙的關聯,進而生成更準確的向量表示。
導入MRL技術:兼具效能與儲存成本
在維持高精準度的同時,Google也考量到了企業佈署向量資料庫的儲存成本。
延續前代文字嵌入模型的優良傳統,Gemini Embedding 2同樣採用「俄羅斯套娃表徵學習」 (Matryoshka Representation Learning, MRL)技術。這項技術能將重要資訊「嵌套」在向量的前段,允許開發者動態縮減向量的輸出維度。
雖然系統預設、推薦使用最高品質的3072、1536或768維度,但開發者可根據專案對儲存空間與搜尋延遲的容忍度,彈性向下調整維度,在效能與成本之間取得完美平衡。
無縫接軌當前主流AI開發者生態
為了讓開發者能第一時間將這項強大技術導入現有專案,Gemini Embedding 2已經準備好與當前最熱門的開源框架及向量資料庫對接。
官方指出,該模型可直接整合至LangChain、LlamaIndex與Haystack等開發框架,並且完美支援Weaviate、QDrant、ChromaDB,以及Google自家的Vector Search等主流向量資料庫。
分析觀點
過去兩年,業界的目光幾乎全聚焦在「能說善道」的大型語言模型 (LLM)上,但真正決定企業級AI應用 (如企業內部知識庫客服、智慧搜尋)聰明與否的關鍵,其實是負責把龐大資料轉換為機器可理解格式的「嵌入模型」 (Embedding Model)。
Google這次最大的殺手鐧在於「原生」 (Natively)這兩個字。特別是音訊不需要先轉成逐字稿就能直接向量化,這代表AI開始能真正「聽懂」聲音的情緒與頻率差異,而非只看冷冰冰的文字。當文字、圖片、影音全都能在「同一個座標系」裡被精準比對時,我們即將迎來的,會是能夠真正看懂設計圖、聽懂法說會錄音,甚至直接搜尋特定影片片段的次世代「多模態RAG」爆發期。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
精華 FAQ
-
Gemini Embedding 2是一款原生多模態嵌入模型,能直接將多種資料型態如文字、圖像、音訊等進行向量化,無需中間轉換,提高效率和準確性。
-
Gemini Embedding 2支持交錯輸入,開發者可以在一次請求中同時提交不同類型的媒體,模型能理解其間的複雜關聯,生成準確的向量表示。
-
Gemini Embedding 2採用俄羅斯套娃表徵學習技術,允許開發者根據需求靈活調整向量維度,從而在效能和儲存成本之間取得平衡。

討論區