AI模型Google Gemini報到！將挑戰GPT4.0霸權

Google 推出Gemini 1.0，Google聲稱這是目前為止最強大、最通用的模型，而且經過許多基準測試都展現先進的性能，而且依照不同模型的大小進行最佳化分為Ultra、Pro和Nano。

Gemini是Google跨部門大型合作的成果，包括Google Research團隊的成員也參與其中。從一開始，Google就把Gemini設計為多模態的模式，不僅能夠通用化並流暢地理解、操作和結合包括文字、圖像、音訊、視訊和程式碼在內的不同類型資訊，而且可以應用在資料中心、行動裝置等各種平台，並針對不同規模進行最佳化：

．Gemini Ultra：規模最大、功能最強大的模型，專為高度複雜的任務而設計。
．Gemini Pro：最適合擴展、橫跨各種類型的任務。
．Gemini Nano：處理裝置上的任務最有效率的模型。

Google不斷對Gemini模型進行嚴格的測試，評估Gemini在處理各種任務上的表現。從理解自然圖像、音訊和視訊，到數學推理；我們發現Gemini Ultra在大型語言模型（LLM）研究和開發中廣泛採用的32個學術基準測試中，有30個取得了超越了當前的最先進基準的效能。

Google透過32個在研究和開發大型語言模型（LLM）的時候會採用的學術基準，去測試Gemini Ultra從理解自然圖像、音訊和視訊到數學推理的表現，而從其中 30 個測試基準得到的結果，都超越目前最先進的模型。

在MMLU（大規模多任務語言理解；massive multitask language understanding）的測試裡，結合了包括數學、物理、歷史、法律、醫學和倫理學等 57 個主題，去測試模型對世界的理解還有解決問題的能力；而Gemini Ultra以90.04%的高得分，成為第一個在MMLU測試裡超越人類專家的模型。

Google以新的MMLU衡量方法，讓Gemini能夠利用它的推理能力在回答難題前更仔細地思考，相比僅使用第一印象的評估方式有顯著進化。

此外，基礎測試還具有多模態的任務，跨越不同的領域，要完成的話需要刻意的去推理，而Gemini Ultra也在MMMU的基準測試裡得到 59.4% 的領先分數。

光學字元識別（object character recognition, OCR）系統，會協助模型從影像擷取出文字訊息，再近一步處理；但是在我們的圖像基準測試裡，Gemini Ultra在沒有使用OCR的情況下，還超越了先前的最先進模型。這些基準測試，突顯出Gemini原生多模態的特性，也初步展現了Gemini具備更複雜的推理能力。

Gemini設計成原生就是多模態的模型，一開始就在不同的模態上進行預先的訓練。接著，我們透過額外的多模態資料進行微調，進一步提升效能。這樣可以幫助 Gemini從一開始就能順暢地理解和推理各種輸入的資訊，效能遠比現有的多模態模型來得好，並幾乎在所有的領域都展現出最先進的能力。

成熟的推理能力

Gemini 1.0成熟的多模態推理能力，有助於理解複雜的書面和視覺訊息，也因此使得Gemini具備了獨特的技能，可以從大量資料中整理出難以理解的知識。

Gemini在閱讀、篩選和理解資訊方面的能力相當令人驚豔，能夠從數十萬份文件中擷取出觀點，能夠更快速地幫助許多領域帶來新的突破，從科學到金融都是。

理解文字、圖像、音訊等更多資訊

Gemini 1.0所受的訓練，是同時識別和理解文字、圖像和音訊等資訊，所以能進一步的理解更細微的資訊，並回答涉及複雜主題的問題。這也讓 Gemini 在解釋、推理像是數學和物理這樣複雜的問題上，表現特別出色。

進階的程式設計能力

第一個版本的Gemini能夠理解、解釋世界上最常用的程式語言 ，像是Python、Java、C++和Go，並且生成高品質的程式碼。能夠跨語言工作、解讀複雜資訊的能力，更讓Gemini成為世界數一數二的程式設計基礎模型。

Gemini Ultra在幾個程式設計的基準測試中表現出色，包括程式設計業界衡量成效標準的HumanEval測試，以及截留（held-out）驗證資料集，用的是程式設計者自己生成的來源，而不是來自網路的資訊。

Gemini也可以當作引擎，來驅動更進階的程式生成系統。兩年前，Google推出了AlphaCode，是第一個在程式設計競賽當中能夠達到有競爭實力的 AI 程式碼生成系統。

透過一個專門版本的Gemini，Gooogle建立了更進階的程式碼生成系統AlphaCode 2。這個系統除了擅長程式設計，還能處理和數學與理論電腦科學相關、複雜的競技程式設計的問題。

當與AlphaCode在相同的平台上進行評估時，AlphaCode 2展現出大幅度的進步，解決的問題數量幾乎是兩倍。我們評估AlphaCode 2的表現超過85%的參賽者，相較於AlphaCode只贏過50%左右的參賽者，有所提升。而且，如果程式設計師和AlphaCode 2協作，協助定義程式碼需要遵循的特定屬性時，表現甚至更好。

《原文刊登於合作媒體三嘻行動哇，聯合新聞網獲授權轉載。》

📌 數位夯什麼？快來看看