-
DeepSeek和Kimi首輪就被淘汰,這項(xiàng)大模型對(duì)抗賽說(shuō)明了什么?
-
張廣凱13764468101
谷歌發(fā)起的“首屆大模型對(duì)抗賽”,在賽前就已經(jīng)話題度拉滿,但是隨著8月5日比賽正式打響,參賽AI展現(xiàn)出的水平或許令人有些失望。相比于兩款中國(guó)模型DeepSeek-R1和Kimi K2 Instruct的首輪折戟,比賽傳遞出的更重要信息在于,通用大模型的推理能力還存在普遍性缺陷。
低級(jí)失誤不斷的比賽
首先要說(shuō)明的是,所謂“首屆大模型對(duì)抗賽”,其實(shí)在比賽形式和參賽AI大模型的選擇上都備受爭(zhēng)議。
這次比賽的形式是讓大模型兩兩捉對(duì)下國(guó)際象棋。谷歌DeepMind團(tuán)隊(duì),也就是2017年憑借AlphaGo徹底在棋類項(xiàng)目上擊敗人類的團(tuán)隊(duì),為大模型提供了技術(shù)接口,讓大模型能夠“看懂”棋盤(pán)。
參賽的8個(gè)大模型中,包括了OpenAI的o4-mini、o3,谷歌的Gemini 2.5 Pro、Gemini 2.5 Flash,Anthropic的Claude Opus 4,xA的Grok 4,以及來(lái)自中國(guó)團(tuán)隊(duì)的DeepSeek-R1和Kimi K2 Instruct。
其中兩款中國(guó)模型的選擇受到了不少質(zhì)疑,首先,Kimi K2 Instruct并非推理模型,在下棋場(chǎng)景存在天然劣勢(shì),而DeepSeek-R1已經(jīng)是半年前發(fā)布的“老模型”。因此,不管其表現(xiàn)如何,比賽結(jié)果都不能客觀反映中國(guó)大模型行業(yè)的真實(shí)水平。
在比賽的官方網(wǎng)站上,也有用戶提出了這樣的質(zhì)疑。而主辦方的回復(fù)稱,這次比賽只是一個(gè)開(kāi)始,后續(xù)會(huì)將更多中國(guó)模型納入。
從首輪比賽結(jié)果來(lái)看,兩款中國(guó)模型也確實(shí)都表現(xiàn)不佳。
從對(duì)陣圖中可以看到,首輪四組對(duì)決都呈現(xiàn)“一邊倒”的態(tài)勢(shì),獲勝方全部都取得了4-0的全勝戰(zhàn)績(jī)。
如果具體來(lái)看比賽過(guò)程,Kimi K2 Instruct不出意外是表現(xiàn)最差的模型,不光貢獻(xiàn)了僅僅4回合就被對(duì)手將死的最快敗局,還多次因?yàn)榉欠ㄒ苿?dòng)被判負(fù)(比賽規(guī)則設(shè)定,如果連續(xù)4次嘗試非法移動(dòng)就會(huì)被判負(fù))。
例如下面的場(chǎng)景中,Kimi試圖用白馬去吃掉對(duì)方的黑后,而沒(méi)有意識(shí)到馬是不能這樣移動(dòng)的。即使在被人工告知這是非法移動(dòng)后,它仍然堅(jiān)持認(rèn)為這是最優(yōu)走法。
在另外一局中,Kimi甚至無(wú)法正確識(shí)別棋子的位置。
事實(shí)上,盡管有不少低級(jí)錯(cuò)誤,Kimi在每一盤(pán)的開(kāi)局中都還表現(xiàn)中規(guī)中矩,能夠使用人類的經(jīng)典開(kāi)局方式,顯示出大模型對(duì)于國(guó)際象棋的基礎(chǔ)知識(shí)是有認(rèn)知的。只不過(guò)隨著局面開(kāi)始復(fù)雜化,所有大模型都開(kāi)始變得力不從心。
例如在下面這個(gè)場(chǎng)景中,DeepSeek-R1下出了糟糕的一步:把白后移動(dòng)到c3的位置。
在推理過(guò)程中可以看到,DeepSeek-R1認(rèn)為對(duì)方的黑后威脅到了己方c2的兵,因此打算將白后移動(dòng)到c3,認(rèn)為這樣可以逼迫黑后做出避讓,并用d列的白車威脅同列的黑王。
但是到了下一回合,白棋仿佛就忘記了前面的考慮,在明明有其它選擇的情況下,用自己的王擋住了車的路線,白白損失掉白后。
有國(guó)際象棋愛(ài)好者對(duì)觀察者網(wǎng)指出,這里更常規(guī)的選擇是白后D4吃兵,在將軍的同時(shí)還能解放出己方車的路線??瓷先?,DeepSeek-R1似乎只能考慮到有限的幾種情況,缺乏多步推理和全局概念。
需要指出的是,這不是DeepSeek-R1獨(dú)有的問(wèn)題,基本上每個(gè)大模型都在常規(guī)的開(kāi)局后,迅速開(kāi)始下出各種“昏招”。
在專業(yè)的國(guó)際象棋網(wǎng)站Chess.com看來(lái),只有Grok 4的表現(xiàn)略勝一籌,能夠較好地識(shí)別和捕獲對(duì)方未設(shè)防的棋子。
馬斯克也在第一時(shí)間“炫耀”說(shuō),(下棋)只是Grok 4的“副作用”,他們并未對(duì)此做專門訓(xùn)練。
比賽的真正意義是什么?
那么從首日戰(zhàn)況來(lái)看,這項(xiàng)賽事到底說(shuō)明了什么,又有多大意義?
首先,“首屆大模型對(duì)抗賽”這樣的說(shuō)法,或許并不合適,因?yàn)楸荣悳y(cè)試的僅僅是下國(guó)際象棋這樣的單一能力,并不能完全反映一個(gè)模型的綜合水平。
即使把重點(diǎn)放在“對(duì)抗”上,其實(shí)也早已經(jīng)有LM Arena這樣的知名對(duì)戰(zhàn)平臺(tái)。
但是谷歌的野心,也不僅僅是辦一場(chǎng)國(guó)際象棋比賽。事實(shí)上,本次比賽更像是谷歌為了打造一個(gè)更大規(guī)模LLM評(píng)價(jià)體系的“墊場(chǎng)賽”。
承辦本次比賽的Kaggle,本就是谷歌旗下知名的數(shù)據(jù)科學(xué)賽事平臺(tái),在行業(yè)內(nèi)享有很高聲譽(yù),如今在DeepMind加持下進(jìn)軍LLM賽事,最終應(yīng)該是希望打造一套更加完整權(quán)威的評(píng)價(jià)體系。
當(dāng)前每逢各家大模型上新,“刷榜”已經(jīng)成了標(biāo)準(zhǔn)操作,各種“SOTA”層出不窮,但是業(yè)內(nèi)對(duì)這些榜單能否真正客觀體現(xiàn)模型能力,一直存在質(zhì)疑。甚至不排除模型在訓(xùn)練階段,就會(huì)針對(duì)榜單題目進(jìn)行針對(duì)性優(yōu)化。
從這個(gè)角度來(lái)說(shuō),如果能夠建立一套新的評(píng)級(jí)體系,掌握評(píng)級(jí)話語(yǔ)權(quán),對(duì)于谷歌在AI領(lǐng)域的地位將是極大的加強(qiáng)。
如果只看國(guó)際象棋比賽比賽本身,我們也可以看到,其對(duì)大模型能力的評(píng)估確實(shí)也有相當(dāng)?shù)膮⒖純r(jià)值。例如,非推理模型Kimi K2 Instruct的確表現(xiàn)較差,而Gemini 2.5 的Pro和Flash也體現(xiàn)出了能力差距。
而對(duì)行業(yè)來(lái)說(shuō),這項(xiàng)比賽也讓我們更清晰地看到,即使是2025年最新的推理大模型,在解決垂直問(wèn)題時(shí)的表現(xiàn),不但不如多年前的AlphaGo,甚至也可能遠(yuǎn)遠(yuǎn)不如受過(guò)基本訓(xùn)練的人類。單靠通用模型去做場(chǎng)景落地并不現(xiàn)實(shí),這意味著應(yīng)用層面的創(chuàng)業(yè)者仍有廣闊空間。
- 責(zé)任編輯: 張廣凱 
-
安踏接連落子,這次押寶“韓流”復(fù)興?
2025-08-06 17:23 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
對(duì)話格靈深瞳CEO:穿透WAIC熱度,透視AI落地的“硬功夫”
2025-08-06 16:15 2025世界人工智能大會(huì) -
特朗普施壓臺(tái)積電“極限二選一”?
2025-08-06 11:33 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
智利媒體關(guān)注中國(guó)動(dòng)力電池前15強(qiáng)
2025-08-06 11:10 -
全球平板出貨六連增:蘋(píng)果三星市占率下滑,華為升至第三
2025-08-06 11:09 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
-
對(duì)標(biāo)英偉達(dá)CUDA,華為宣布開(kāi)源CANN
2025-08-05 17:38 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
初代網(wǎng)紅小火鍋呷哺呷哺,5年間虧了13億
2025-08-05 16:23 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
-
盒馬X會(huì)員店全線撤退,8月底或?qū)㈥P(guān)閉全部門店
2025-08-05 13:36 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
虧本14億甩掉深圳7塊地,華發(fā)股份急補(bǔ)現(xiàn)金流
2025-08-05 13:19 -
-
竊取華為秘密被重判,中國(guó)芯沒(méi)有捷徑
2025-08-05 09:25 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
“巨無(wú)霸”來(lái)了!中國(guó)船舶、中國(guó)重工最新公告
2025-08-04 20:15 金融觀察 -
-
相關(guān)推薦 -
-
盧拉:我要給中印打電話,金磚聯(lián)手應(yīng)對(duì)特朗普 評(píng)論 140這項(xiàng)天才工程師量產(chǎn)計(jì)劃,已經(jīng)執(zhí)行10年了 評(píng)論 100中國(guó)霸榜開(kāi)源AI,美業(yè)界掀起“團(tuán)戰(zhàn)” 評(píng)論 47美國(guó)又要砍經(jīng)費(fèi),反對(duì)者吵吵:不能讓給中俄 評(píng)論 57“非洲是時(shí)候完全轉(zhuǎn)向中國(guó)了,助其成為全球頂流” 評(píng)論 104最新聞 Hot
-
盧拉:我要給中印打電話,金磚聯(lián)手應(yīng)對(duì)特朗普
-
“日本偷,美國(guó)搶,臺(tái)積電保臺(tái)能多長(zhǎng)?”
-
“最快下周舉行面對(duì)面會(huì)晤”,歐洲驚訝
-
遭美國(guó)50%關(guān)稅重錘,印度連喊三個(gè)“不”
-
美軍一現(xiàn)役軍人拔槍射傷5名士兵,特朗普譴責(zé)
-
“莫迪將訪華,7年來(lái)首次”
-
中國(guó)霸榜開(kāi)源AI,美業(yè)界掀起“團(tuán)戰(zhàn)”
-
加到50%!特朗普對(duì)印度下手
-
美印是這么談崩的?
-
少林寺現(xiàn)和尚“離職潮”?最新回應(yīng)
-
理想汽車、中國(guó)汽研、東風(fēng)柳汽發(fā)布聯(lián)合聲明
-
失聯(lián)5個(gè)月,NASA放棄了
-
許倬云訃告發(fā)布
-
中國(guó)簽署合作協(xié)議半年后,美國(guó)跟著“抄作業(yè)”
-
印度回懟特朗普:比你們高
-
美國(guó)又要砍經(jīng)費(fèi),反對(duì)者吵吵:不能讓給中俄
快訊- 88VIP權(quán)益再升級(jí),新增超10項(xiàng)權(quán)益
- 盒馬宣布今年將開(kāi)100家新店,門店總數(shù)預(yù)計(jì)超過(guò)500家
- 海關(guān)總署:前7個(gè)月與美國(guó)貿(mào)易總值為2.42萬(wàn)億元,下降11.1%
- 8月7日起,《南京照相館》將陸續(xù)在美國(guó)、韓國(guó)等多國(guó)上映
- 緬甸代總統(tǒng)敏瑞因病逝世
- 李在明25日訪美會(huì)見(jiàn)特朗普:或官宣“對(duì)美投資大禮包”
- 全球BC生態(tài)協(xié)同創(chuàng)新中心揭牌,BC生態(tài)圈進(jìn)一步擴(kuò)大
- 育兒補(bǔ)貼剛到位奶粉就要漲價(jià)?多家乳企辟謠
-