-
“起大早趕晚集”的谷歌大模型,這次真的“遙遙領(lǐng)先”了?
最早推出Transformer架構(gòu)的谷歌,一度在大模型競賽中落后。好在隨著Gemini的不斷進化,谷歌正在回到第一梯隊。
3月26日,Gemini 2.5 Pro上線,這個模型一經(jīng)推出就登頂各大榜單,在Chatbot Arena上較第二名高出整整39分!
Gemini 2.5 Pro是一款推理模型。谷歌表示,推理能力不僅僅指分類和預(yù)測,而是指系統(tǒng)分析信息、得出邏輯結(jié)論、融入上下文和細(xì)微差別,以及做出明智決策的能力。
據(jù)悉Gemini 2.5 Pro 目前支持 100 萬 token 的上下文窗口,很快將推出200萬token的上下文窗口,繼承并發(fā)揚了 Gemini 模型的優(yōu)勢——原生多模態(tài)能力和超長上下文長度。
這讓它能夠理解海量數(shù)據(jù)集,并處理來自多種信息源的復(fù)雜問題,包括文本、音頻、圖像、視頻,甚至完整的代碼倉庫。
在Chatbot Arena(由加州大學(xué)伯克利分校 SkyLab 和 LMSYS 的研究者開發(fā),主要用于根據(jù)人類偏好評估大語言模型的性能)上,Gemini 2.5 Pro以橫掃所有類別的顯著優(yōu)勢排名第一,并且比緊隨其后的Grok-3整整高出了39分。
同時Gemini 2.5 Pro還獲得了創(chuàng)意寫作、指令遵循和長查詢?nèi)箢I(lǐng)域唯一的冠軍。
此外,Gemini 2.5 Pro成功登頂了視覺競技場(Vision Arena)排行榜榜首。
在網(wǎng)頁開發(fā)領(lǐng)域,作為首個實力媲美 Claude 3.7 Sonnet 的模型,Gemini 2.5 Pro成功獲得了網(wǎng)頁開發(fā)競技場(WebDev Arena)的第二名。
不僅如此,Gemini 2.5 Pro在Humanity’s Last Exam(no tools),GPQA和 AIME 2025等數(shù)學(xué)和科學(xué)基準(zhǔn)評測中同樣表現(xiàn)卓越。
Humanity’s Last Exam (no tools)即 “人類的最后考試(無工具)”,這里的 “無工具” 指在進行該考試時,不允許使用外部工具,如搜索引擎、數(shù)據(jù)庫等。已往實驗顯示,最先進的 LLMs 在 HLE 上的準(zhǔn)確率普遍低于 10%,且存在信心與能力失衡、推理效率低等問題,表明當(dāng)前 LLM 的能力與人類專家在封閉式學(xué)術(shù)問題上的前沿能力之間的差距。在這一背景下,Gemini 2.5 Pro 18.8%的成績顯得非常突出。
據(jù)悉,Gemini 2.5 Pro 已在 Google AI Studio 和 Gemini 應(yīng)用中,向 Gemini Advanced 用戶開放,并將在 Vertex AI 上推出。
而它會在未來幾周內(nèi)公布定價方案,用戶可以在更高使用配額下,將模型應(yīng)用于大規(guī)模生產(chǎn)環(huán)境。
有意思的是,最近國內(nèi)和國外兩大著名的“起大早趕晚集”選手都發(fā)布了最新大模型,含金量是否都能達到評測顯示的效果呢?
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
標(biāo)簽 Gemini- 責(zé)任編輯: 張睿佳 
-
胖東來,徹底“透明”
2025-03-26 14:26 觀網(wǎng)財經(jīng)-消費 -
補稅+罰款,印度要求三星支付44億
2025-03-26 14:04 觀網(wǎng)財經(jīng)-科創(chuàng) -
騰訊元寶上線最新DeepSeekV3模型
2025-03-26 13:53 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
手機直連衛(wèi)星藍牙?藍凌星通完成數(shù)千萬元天使+輪融資
2025-03-26 13:52 觀網(wǎng)財經(jīng)-科創(chuàng) -
芯片巨頭互撕:高通在全球三大洲投訴ARM壟斷
2025-03-26 12:53 觀網(wǎng)財經(jīng)-科創(chuàng) -
蘋果AI支持中文了,iPhone也能用5.5G了
2025-03-26 12:04 觀網(wǎng)財經(jīng)-科創(chuàng) -
年輕的中國跨境賣家,瘋狂殺入“百萬美金俱樂部”
2025-03-26 10:25 觀網(wǎng)財經(jīng)-海外 -
阿里官宣:與寶馬達成合作
2025-03-26 10:24 觀網(wǎng)財經(jīng)-科創(chuàng) -
再次打破傳統(tǒng)!DeepSeek發(fā)布更新,可以直接在消費級硬件上運行
2025-03-26 10:24 觀網(wǎng)財經(jīng)-科創(chuàng) -
歐洲專利局2024年收到中國專利申請數(shù)創(chuàng)新高
2025-03-26 09:59 觀網(wǎng)財經(jīng)-科創(chuàng) -
霸王茶姬招股書公布:2024年GMV為295億元,門店數(shù)達6440家
2025-03-26 09:51 觀網(wǎng)財經(jīng)-消費 -
-
越內(nèi)卷越要建廠擴張?創(chuàng)維數(shù)字利潤下滑超6成
2025-03-25 18:11 觀網(wǎng)財經(jīng)-科創(chuàng) -
4億大單,新西蘭農(nóng)業(yè)巨頭加碼中國市場
2025-03-25 16:23 觀網(wǎng)財經(jīng)-消費 -
移動云營收去年首次突破千億,5年增長超50倍
2025-03-25 16:20 觀網(wǎng)財經(jīng)-科創(chuàng) -
謝廣軍已辭職?百度內(nèi)部人士回應(yīng)
2025-03-25 16:03 大公司 -
小米配股融資超400億港元,雷軍曾稱“不缺錢才好融資”
2025-03-25 15:35 觀網(wǎng)財經(jīng)-科創(chuàng) -
珍酒李渡歸母凈利大降43.1%,核心品牌銷量“四連跌”
2025-03-25 15:16 觀網(wǎng)財經(jīng)-消費 -
DeepSeek“偷偷”發(fā)布新版本,最新測評來了
2025-03-25 14:25 -
騰訊等巨頭攜手入股智元機器人
2025-03-25 13:29 觀網(wǎng)財經(jīng)-科創(chuàng)
相關(guān)推薦 -
最新聞 Hot
-
好一個“舉賢不避親”,特朗普推薦兒媳參選
-
開庭前妻子墜樓身亡,柯文哲前副手痛哭:臺灣怎么變成這樣
-
美國放風(fēng):伊朗有動作了
-
“中方正考慮邀請李在明出席”
-
“中國洋垃圾禁令震動全球”,馬來西亞也跟了
-
靠萬斯“決勝一票”,“大而美”法案驚險闖關(guān)參議院
-
白宮官員:沒人在乎馬斯克說了什么
-
日澳印各懷心事,魯比奧還想著中國:別談了,得干實事,搞礦!
-
三年來首次,普京與馬克龍通話
-
“我會給日本寫信感謝他們,給他們加關(guān)稅”
-
特朗普:奧巴馬糟糕小布什低分,拜登史上最差,而我…
-
美財長:中國加快稀土出口吧,回到過去
-
“《新華字典》例句稱小孩是累贅”再引爭議,多方回應(yīng)
-
英國樂隊在音樂節(jié)上高喊“以軍去死”,英美都“炸”了
-
多地宣布“解禁”中華田園犬
-
內(nèi)塔尼亞胡證實下周訪美,除了特朗普還要見他們
-