曰韩人妻无码一区二区三区综合部 ,中文字幕,欧美,日韩

APP下載

掃一掃

下載觀察者APP

GPT-5大提升，o3對抗賽奪冠，但OpenAI越來越難讓人驚艷了？
- 張廣凱13764468101
分享到：

2025-08-08 18:13:19 字號：A- A A+ 來源：觀察者網(wǎng)

（文/觀察者網(wǎng) 張廣凱編輯/呂棟）

北京時間8月8日凌晨，備受期待的OpenAI最新大模型ChatGPT-5終于正式發(fā)布，就在同時，谷歌舉辦的首屆大模型國際象棋對抗賽中，o3也以4-0完勝Grok 4奪冠。這本該是對OpenAI雙喜臨門的一天，但作為一款關(guān)注度如此之高的產(chǎn)品，網(wǎng)友也很快發(fā)現(xiàn)了GPT-5的一些小小的瑕疵。

盡管大模型的能力仍然在快速進步，但其進步幅度越來越難以給人帶了驚艷感了。這不是OpenAI自己的問題，甚至某種意義上，這也不是一件壞事，因為是之前人們的預(yù)期已經(jīng)被拉到過高。但無論如何，在現(xiàn)有的算法范式下，AI大模型或許也離瓶頸越來越近了。

GPT-5水平如何？

作為OpenAI今年最受期待又屢屢跳票的重磅產(chǎn)品，ChatGPT-5今天的確給出了一些頗具說服力的測評數(shù)據(jù)，證明其推理能力有著顯著進步。

例如，在數(shù)學(xué)能力測試AIME 2025上，GPT-5 Pro在開啟推理模式并調(diào)用工具（Python）的情況下，拿下滿分成績。即使不調(diào)用工具，GPT-5 Pro仍能拿下96.7的高分，GPT-5標準版也能拿到94.65分，顯著高于o3的88.9分。

編程方面，GPT-5在SWE-bench Verified上得到74.9分，高于o3的69.1和4o的30.8分。

博士水平的科學(xué)知識測試GPQA Diamond中，不調(diào)用工具的GPT-5 Pro推理模式拿到88.4分，創(chuàng)造新紀錄。

多模態(tài)方面，GPT-5得到84.2分，比o3的82.9分有小幅提升。

高難度的Humanity's Last Exam（人性終極測試）上，GPT-5 Pro和GPT-5在不調(diào)用工具時分別得到30.7和24.8分，較o3的14.7分大幅提升。

大模型競技場LM Arena的評分也已經(jīng)出爐，GPT-5橫掃所有單項的第一名。

此外，GPT-5推理模式的幻覺數(shù)量比o3少了六倍，成本方面則可以減少50-80%的token輸出量。

這些數(shù)據(jù)都證明，GPT-5算得上是一次成功的大版本升級。

但另人尷尬的是，在發(fā)布會后，網(wǎng)友迅速發(fā)現(xiàn)GPT-5在解一道極其簡單的方程時又犯了計算錯誤：

看起來，GPT-5還是沒能解決小數(shù)比大小的問題。

而OpenAI發(fā)布會PPT里的小瑕疵，也引起了網(wǎng)友熱議。大家發(fā)現(xiàn)在這張圖表里，柱狀圖的高度出現(xiàn)了明顯錯誤，但并不知道這是人為錯誤還是由AI生成。

有網(wǎng)友指出，在關(guān)于機翼升力原理的回答中，GPT-5也引用了一個廣為流傳的錯誤觀點。當(dāng)然，這樣的問題歸咎于AI未免過于苛刻。

馬斯克則“嘴硬”稱，Grok 4在ARC-AGI測試中仍然打敗了GPT-5。

做題好是不是真的好？

那么，如何評價GPT-5的真實水平，或許日前的大模型國際象棋對抗賽恰好給我們提供了一個很好的參考。

同樣在今天凌晨結(jié)束的對抗賽上，OpenAI旗下的o3以4-0完勝Grok 4，奪得最終冠軍。盡管Grok 4在此前兩輪中都表現(xiàn)出色，但在決賽中，隨著對局長度增加，Grok 4也開始表現(xiàn)出棋力下降。

例如在第一局中，Grok 4莫名其妙地放棄了自己的象，并且沒有獲得任何明顯的回報，而Grok 4也并未在推理中說明理由。

o3盡管表現(xiàn)相對出色，在昨天的半決賽中還下出過正確率評分100%的棋局，但縱觀整個比賽過程，也不乏低級失誤。

或許有人會質(zhì)疑，讓AI下棋究竟能證明什么？AI對抗賽的勝負，是不是僅僅取決于它們使用了多大規(guī)模的訓(xùn)練數(shù)據(jù)？DeepSeek下棋不好，但是作詩是不是更好？

事實上，如果只糾結(jié)于下棋或者作詩的技能水平，說明并未理解谷歌采用這種比賽形式的邏輯。

此次國際象棋比賽的意義，并非考驗大模型的算力，而是考驗其推理能力。

如果大模型在接受了大量棋譜訓(xùn)練之后，體現(xiàn)出高超棋力，這只能證明AI的記憶力或者算力強大，而這件事在2017年就已經(jīng)被AlphaGo證明過了。

但是由于這些通用大模型都沒有接受過專門的棋譜訓(xùn)練，因此往往只能在開局階段憑借記憶下出經(jīng)典開局。在幾個回合之后，大模型已經(jīng)無法找到人類棋譜作為參考，它們的思維結(jié)構(gòu)也并非像AlphaGo那樣專為下棋設(shè)計。因此，這時候的AI推理，是跟人類相同的推理方式，通過語言邏輯來推演棋盤變化。

上述無工具的數(shù)學(xué)測試，起到的也是類似作用：考驗AI用人類邏輯進行計算的能力，而不是使用專門的機器算法。

因為無論是AlphaGo也好，還是計算工具也好，這樣的AI在特定任務(wù)中無比強大，但是卻毫無泛化性，不能解決任何其它問題。只有使用人類邏輯推理的模型，才能在人類世界中擁有最好的泛化性。

而在這個維度上，我們可以看到，無論是o3、Grok 4，還是最新升級的GPT-5，哪怕他們大部分時間都能夠解決復(fù)雜問題，但也還會犯下對人類來說的低級錯誤。這是現(xiàn)有的Next Token Predicting范式下仍然難以完全克服的問題，也說明它們或許離AGI的最終形態(tài)還有遙遠距離。

OpenAI顯然也不再希望把外界的胃口掉得過高。在本次發(fā)布會上，我們可以看到OpenAI花了更多時間介紹GPT-5在垂直場景應(yīng)用的能力，例如生成小游戲、回答健康問題的能力，這都是為了讓AI與人類更好地共存與協(xié)作。
|

舉報
- 違反法律法規(guī)
- 垃圾信息、廣告
- 色情、淫穢信息
- 人身攻擊
- 謠言、不實信息
- 冒充，冒用信息
- 破壞社區(qū)秩序
- 其他
- 涉未成年人有害信息
觀察者網(wǎng)舉報制度規(guī)范
確定取消
標簽
- 責(zé)任編輯: 張廣凱
- 增收不增利大跌8%，中芯國際稱國內(nèi)客戶需求猛漲
  
  2025-08-08 16:16 觀網(wǎng)財經(jīng)-科創(chuàng)
- AR創(chuàng)業(yè)者親述：在美國做中國的事情，成本將暴漲好幾倍
  
  2025-08-08 14:42 觀網(wǎng)財經(jīng)-科創(chuàng)
- 臺積電2nm泄密，日企光速解雇一人
  
  2025-08-08 14:02 觀網(wǎng)財經(jīng)-科創(chuàng)
- 華為Mate70最高降價1000，Mate80或支持eSIM
  
  2025-08-08 11:46 觀網(wǎng)財經(jīng)-科創(chuàng)
- OpenAI推出GPT-5；ChatGPT-4.5錯誤率升高；英特爾回應(yīng)特朗普
  
  2025-08-08 09:09 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- 特朗普：英特爾CEO必須立即辭職
  
  2025-08-08 06:30 觀網(wǎng)財經(jīng)-科創(chuàng)
- 伊朗放棄GPS全面轉(zhuǎn)向，有力證明了北斗這個優(yōu)勢
  
  2025-08-07 22:53 觀察者頭條
- RWA代幣化規(guī)模激增410%，真實世界資產(chǎn)或成加密領(lǐng)域下一個風(fēng)口
  
  2025-08-07 22:38 金融觀察
- “秋天第一杯奶茶”爆單，有消費者苦等1.5小時
  
  2025-08-07 22:33 觀網(wǎng)財經(jīng)-消費
- 女玩家情感投入反遭套路？多款頭部乙游頻發(fā)大規(guī)模投訴
  
  2025-08-07 18:59 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- 安踏收購銳步被否認，ABG公司稱沒有出售打算
  
  2025-08-07 18:54 觀網(wǎng)財經(jīng)-消費
- 小米手機歐洲份額超蘋果，全球出貨受印度拖累
  
  2025-08-07 17:06 觀網(wǎng)財經(jīng)-科創(chuàng)
- 蘋果：將與三星合作推出創(chuàng)新芯片制造技術(shù)
  
  2025-08-07 16:34 觀網(wǎng)財經(jīng)-科創(chuàng)
- 極兔搶灘巴西，也在悄然改變巴西貧民窟
  
  2025-08-07 16:21
- 庫克瘋狂示好特朗普：1000億美元+24K金底座擺件
  
  2025-08-07 14:13 觀網(wǎng)財經(jīng)-科創(chuàng)
- 88VIP權(quán)益再升級，新增超10項權(quán)益
  
  2025-08-07 12:08 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- 盒馬宣布今年將開100家新店，門店總數(shù)預(yù)計超過500家
  
  2025-08-07 12:04 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
- 深度對話：小米阿里引爆智能眼鏡，AI耳機還是個好賽道嗎？
  
  2025-08-07 10:06 觀網(wǎng)財經(jīng)-科創(chuàng)
- GPT-5或本周發(fā)布；美政府可1美元使用ChatGPT；華為再告?zhèn)饕?/a>
  
  2025-08-07 09:05 觀網(wǎng)財經(jīng)-科創(chuàng)
- 怎樣才是一次理想的道歉？
  
  2025-08-06 22:50
搜索

   觀察者頭條查看全部

15%保護費！這回不提“國安”了？誰還會信美國？評論 93

中俄英法罕見一致強烈譴責(zé)，美國又是個例外評論 223

“俄烏可能對協(xié)議都不滿意，歐洲既然關(guān)心就爽快出錢” 評論 139

特朗普“關(guān)稅大棒”肥了一眾游說公司，但有用？評論 46

抗戰(zhàn)勝利80周年天安門演練現(xiàn)場，視頻來了！評論 107

   風(fēng)聞 · 24小時最熱查看全部

   最新視頻查看全部
最新聞 Hot
快訊

成人免费午夜在线观看,伊人久久精品,一区二区三区精品

GPT-5大提升，o3對抗賽奪冠，但OpenAI越來越難讓人驚艷了？

增收不增利大跌8%，中芯國際稱國內(nèi)客戶需求猛漲

AR創(chuàng)業(yè)者親述：在美國做中國的事情，成本將暴漲好幾倍

臺積電2nm泄密，日企光速解雇一人

華為Mate70最高降價1000，Mate80或支持eSIM

OpenAI推出GPT-5；ChatGPT-4.5錯誤率升高；英特爾回應(yīng)特朗普

特朗普：英特爾CEO必須立即辭職

伊朗放棄GPS全面轉(zhuǎn)向，有力證明了北斗這個優(yōu)勢

RWA代幣化規(guī)模激增410%，真實世界資產(chǎn)或成加密領(lǐng)域下一個風(fēng)口

“秋天第一杯奶茶”爆單，有消費者苦等1.5小時

女玩家情感投入反遭套路？多款頭部乙游頻發(fā)大規(guī)模投訴

安踏收購銳步被否認，ABG公司稱沒有出售打算

小米手機歐洲份額超蘋果，全球出貨受印度拖累

蘋果：將與三星合作推出創(chuàng)新芯片制造技術(shù)

極兔搶灘巴西，也在悄然改變巴西貧民窟

庫克瘋狂示好特朗普：1000億美元+24K金底座擺件

88VIP權(quán)益再升級，新增超10項權(quán)益

盒馬宣布今年將開100家新店，門店總數(shù)預(yù)計超過500家

深度對話：小米阿里引爆智能眼鏡，AI耳機還是個好賽道嗎？

GPT-5或本周發(fā)布；美政府可1美元使用ChatGPT；華為再告?zhèn)饕?/a>

怎樣才是一次理想的道歉？

15%保護費！這回不提“國安”了？誰還會信美國？

無視美方施壓，肯尼亞宣布“重大進展”：中國同意了

中俄英法罕見一致強烈譴責(zé)，美國又是個例外

中國女子水球隊在巴西比賽，驚險一幕

貝森特暗示：關(guān)稅像“融化的冰塊”一樣可撤，前提是制造業(yè)回流美國

他剛見特朗普又訪美，對印度發(fā)核威脅達成“首位”成就

澳大利亞也要承認了

“中國非常重要，我倆最近都去過”

特朗普宣布：“奪回首都”

“俄烏可能對協(xié)議都不滿意，歐洲既然關(guān)心就爽快出錢”

“英偉達獲批對華出口，前提是給美國上貢15%收入”

事關(guān)稀土，印澳想聯(lián)手挑戰(zhàn)中國

“盧秀燕考慮不參選國民黨主席”

“兵力6年減11萬，17個師級以上部隊消失”

特朗普“關(guān)稅大棒”肥了一眾游說公司，但有用？

特朗普任期“沒有壞消息”：好的就夸大，差的是騙局

GPT-5大提升，o3對抗賽奪冠，但OpenAI越來越難讓人驚艷了？

GPT-5大提升，o3對抗賽奪冠，但OpenAI越來越難讓人驚艷了？