18+

AI模型Google Gemini報到!將挑戰GPT4.0霸權

圖片及資料來源:Google
圖片及資料來源:Google

Google 推出Gemini 1.0,Google聲稱這是目前為止最強大、最通用的模型,而且經過許多基準測試都展現先進的性能,而且依照不同模型的大小進行最佳化分為Ultra、Pro和Nano。

Gemini是Google跨部門大型合作的成果,包括Google Research團隊的成員也參與其中。從一開始,Google就把Gemini設計為多模態的模式,不僅能夠通用化並流暢地理解、操作和結合包括文字、圖像、音訊、視訊和程式碼在內的不同類型資訊,而且可以應用在資料中心、行動裝置等各種平台,並針對不同規模進行最佳化:

.Gemini Ultra:規模最大、功能最強大的模型,專為高度複雜的任務而設計。
.Gemini Pro:最適合擴展、橫跨各種類型的任務。
.Gemini Nano:處理裝置上的任務最有效率的模型。

Google不斷對Gemini模型進行嚴格的測試,評估Gemini在處理各種任務上的表現。從理解自然圖像、音訊和視訊,到數學推理;我們發現Gemini Ultra在大型語言模型(LLM)研究和開發中廣泛採用的32個學術基準測試中,有30個取得了超越了當前的最先進基準的效能。

Google透過32個在研究和開發大型語言模型(LLM)的時候會採用的學術基準,去測試Gemini Ultra從理解自然圖像、音訊和視訊到數學推理的表現,而從其中 30 個測試基準得到的結果,都超越目前最先進的模型。

在MMLU(大規模多任務語言理解;massive multitask language understanding)的測試裡,結合了包括數學、物理、歷史、法律、醫學和倫理學等 57 個主題,去測試模型對世界的理解還有解決問題的能力;而Gemini Ultra以90.04%的高得分,成為第一個在MMLU測試裡超越人類專家的模型。

Google以新的MMLU衡量方法,讓Gemini能夠利用它的推理能力在回答難題前更仔細地思考,相比僅使用第一印象的評估方式有顯著進化。

此外,基礎測試還具有多模態的任務,跨越不同的領域,要完成的話需要刻意的去推理,而Gemini Ultra也在MMMU的基準測試裡得到 59.4% 的領先分數。

光學字元識別(object character recognition, OCR)系統,會協助模型從影像擷取出文字訊息,再近一步處理;但是在我們的圖像基準測試裡,Gemini Ultra在沒有使用OCR的情況下,還超越了先前的最先進模型。這些基準測試,突顯出Gemini原生多模態的特性,也初步展現了Gemini具備更複雜的推理能力。

Gemini設計成原生就是多模態的模型,一開始就在不同的模態上進行預先的訓練。接著,我們透過額外的多模態資料進行微調,進一步提升效能。這樣可以幫助 Gemini從一開始就能順暢地理解和推理各種輸入的資訊,效能遠比現有的多模態模型來得好,並幾乎在所有的領域都展現出最先進的能力。

圖片及資料來源:Google
圖片及資料來源:Google

成熟的推理能力

Gemini 1.0成熟的多模態推理能力,有助於理解複雜的書面和視覺訊息,也因此使得Gemini具備了獨特的技能,可以從大量資料中整理出難以理解的知識。

Gemini在閱讀、篩選和理解資訊方面的能力相當令人驚豔,能夠從數十萬份文件中擷取出觀點,能夠更快速地幫助許多領域帶來新的突破,從科學到金融都是。

理解文字、圖像、音訊等更多資訊

Gemini 1.0所受的訓練,是同時識別和理解文字、圖像和音訊等資訊,所以能進一步的理解更細微的資訊,並回答涉及複雜主題的問題。這也讓 Gemini 在解釋、推理像是數學和物理這樣複雜的問題上,表現特別出色。

進階的程式設計能力

第一個版本的Gemini能夠理解、解釋世界上最常用的程式語言 ,像是Python、Java、C++和Go,並且生成高品質的程式碼。能夠跨語言工作、解讀複雜資訊的能力,更讓Gemini成為世界數一數二的程式設計基礎模型。

Gemini Ultra在幾個程式設計的基準測試中表現出色,包括程式設計業界衡量成效標準的HumanEval測試,以及截留(held-out)驗證資料集,用的是程式設計者自己生成的來源,而不是來自網路的資訊。

Gemini也可以當作引擎,來驅動更進階的程式生成系統。兩年前,Google推出了AlphaCode,是第一個在程式設計競賽當中能夠達到有競爭實力的 AI 程式碼生成系統。

透過一個專門版本的Gemini,Gooogle建立了更進階的程式碼生成系統AlphaCode 2。這個系統除了擅長程式設計,還能處理和數學與理論電腦科學相關、複雜的競技程式設計的問題。

當與AlphaCode在相同的平台上進行評估時,AlphaCode 2展現出大幅度的進步,解決的問題數量幾乎是兩倍。我們評估AlphaCode 2的表現超過85%的參賽者,相較於AlphaCode只贏過50%左右的參賽者,有所提升。而且,如果程式設計師和AlphaCode 2協作,協助定義程式碼需要遵循的特定屬性時,表現甚至更好。

《原文刊登於合作媒體三嘻行動哇,聯合新聞網獲授權轉載。》

本日熱門 本周最熱 本月最熱