-
阿里、Kimi推理大模型集中發(fā)布,實際效果卻……
-
張廣凱13764468101
28日,阿里通義千問推出了自己的數(shù)學推理大模型——QwQ-32B-Preview。這是繼Kimi之后,近期第二款對標OpenAI o1系列的推理大模型。
據(jù)介紹,QwQ-32B-Preview包含325億個參數(shù),能夠處理最長32000個tokens的提示詞,在GPQA測試中的評分為 65.2%,展示了研究生水平的科學推理能力。在AIME和MATH基準測試中,它的表現(xiàn)優(yōu)于OpenAI的兩個推理模型o1-preview和o1-mini。
并且,QwQ-32B-Preview在更加寬松的Apache 2.0許可證下“公開”可用,這意味著它可以用于商業(yè)用途。
此前的11月16日,在Kimi正式上線一周年之際,月之暗面發(fā)布了最新數(shù)學模型k0-math。宣稱在中考、高考、考研以及入門競賽題MATH等4個數(shù)學基準測試中,可以超越OpenAI o1-mini和o1-preview。
那么這兩個國產(chǎn)推理大模型的實際能力究竟如何?
值得一提的是,通義官方在QwQ的介紹文章中,首先提到的并不是其性能,而是自己的局限性。文章指出,作為預覽版本,QwQ-32B-Preview 展現(xiàn)了令人期待的分析能力,同時也存在以下局限:
1.語言切換問題:模型可能在回答中混合使用不同語言,影響表達的連貫性。
2.推理循環(huán):在處理復雜邏輯問題時,模型偶爾會陷入遞歸推理模式,在相似思路中循環(huán)。這種行為雖然反映了模型試圖全面分析的努力,但可能導致冗長而不夠聚焦的回答。
3.安全性考慮:盡管模型已具備基礎安全管控,但仍需要進一步增強。它可能產(chǎn)生不恰當或存在偏見的回答,且與其他大型語言模型一樣,可能受到對抗攻擊的影響。我們強烈建議用戶在生產(chǎn)環(huán)境中謹慎使用,并采取適當?shù)陌踩雷o措施。
4.能力差異:QwQ-32B-Preview 在數(shù)學和編程領域表現(xiàn)出色,但在其他領域仍有提升空間。模型性能會隨任務的復雜度和專業(yè)程度而波動。我們正通過持續(xù)優(yōu)化,努力提升模型的綜合能力。
上述文章指出,“QwQ 既展現(xiàn)出能力,又保持著謙遜;既積累知識,又永遠對未知充滿好奇?!痹诳磻T了自吹自擂的商業(yè)通稿之后,通義的這種謙遜態(tài)度已經(jīng)足以眼前一亮。
于是我們拿幾個問題實際測試了上述兩個模型的能力。
首先是出自今年高考全國卷的一個數(shù)學題:當x∈[0,2π]時,曲線y=sinx與y=2sin(3x-π/(6))的交點個數(shù)有幾個?
面對這種非常標準化的問題,QwQ和k0-math都表現(xiàn)不錯,給出了正確的答案:6個。
而且,兩者都體現(xiàn)出了推理大模型的一個重要能力——自我反思。
在解題過程中,它們首先嘗試了代數(shù)方法,把問題轉(zhuǎn)化為求解方程sinx=2sin(3x-π/(6))。但發(fā)現(xiàn)這個方程非常難解之后,又推翻了最初的方法,轉(zhuǎn)而尋求幾何方法來解題。
上圖是k0-math,下圖是QwQ的思考過程
在用幾何方法走通之后,兩個大模型也都絞盡腦汁,用代數(shù)方法重新求解,并得到了正確答案。k0-math甚至在解題之后還檢查了一遍。
可以看到,在純粹的數(shù)學能力上,兩個模型至少都達到了普通人的水平。
不過正如通義文章中所說,隨著問題的復雜度和專業(yè)性提高,它們的表現(xiàn)還不盡如人意。
不久之前,我們曾經(jīng)拿一個用車成本的問題測試過幾個大模型的邏輯能力,這次我們不妨再試一次。問題如下:分析樂道L60車輛采用BaaS方案下的每年用車成本,BaaS方案和電池買斷方案哪個更劃算。
這個問題既涉及到BaaS方案本身的復雜性,而且由于問題表述相對模糊,更考驗大模型像人一樣理解問題的能力。
這次,兩個模型也都不同程度上翻車了。
首先,k0-math基本正確給出了計算方式,但是在具體每項成本的計算上使用了英里和美元作為單位,具體價格也僅為假設,而不是像Kimi探索版那樣通過搜索獲得準確價格。
這體現(xiàn)出k0-math和Kimi探索版的鮮明區(qū)別——雖然強化邏輯,但或許是出于降低成本而弱化了搜索能力。
QwQ卻在邏輯上也存在瑕疵。
從上圖可以看到,QwQ很“貼心”地考慮了貸款購車的情況,給出了5年分期方案。不過這個簡單的單利貸款的月供問題,QwQ卻算錯了。
而在最后的匯總環(huán)節(jié),QwQ又把全款購車費用和貸款月供進行了重復計算,極大高估了總體用車成本。
目前看來,所謂推理大模型,主要還是依賴于兩種算法的加強——對復雜問題的拆分,以及通過反思來檢查。但想要真正具有人類一樣的推理能力,僅有這兩個原則性方法還是遠遠不夠的,仍然需要產(chǎn)品層面的進一步完善。
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權,不得轉(zhuǎn)載。
標簽 大模型- 責任編輯: 張廣凱 
-
中國手機廠商引領市場反彈,iPhone錯失增長良機
2024-11-28 18:01 觀網(wǎng)財經(jīng)-科創(chuàng) -
中鐵建投資集團副總經(jīng)理馬建軍墜樓
2024-11-28 13:48 -
為應對特朗普加征關稅,美科技巨頭急囤中國零部件?
2024-11-28 12:51 觀網(wǎng)財經(jīng)-科創(chuàng) -
事關中企10億美元鋰礦項目,有最新消息
2024-11-28 12:41 海外投資 -
美國兩大PC巨頭股價同時崩盤,怎么回事?
2024-11-28 10:49 大公司 -
前實習生篡改代碼攻擊公司模型訓練,字節(jié)跳動起訴索賠802萬
2024-11-28 10:22 -
美國政府對英特爾補貼“縮水”至79億美元
2024-11-28 09:30 觀網(wǎng)財經(jīng)-科創(chuàng) -
中國5G智能工廠,何以讓國外廠商驚嘆?
2024-11-27 17:20 觀網(wǎng)財經(jīng)-科創(chuàng) -
霸王茶姬加速出海,即將攻入美國市場
2024-11-27 16:34 觀網(wǎng)財經(jīng)-消費 -
劉尚希:中央財政支出比例應提高到30%以上
2024-11-27 15:48 -
滬指漲超1%重回3300點,谷子經(jīng)濟概念股持續(xù)爆發(fā)
2024-11-27 15:15 金融觀察 -
許家印又被采取限制消費措施,股票繼續(xù)停牌
2024-11-27 14:00 觀網(wǎng)財經(jīng)-金融 -
順豐登陸港股,前三季度營收超2000億
2024-11-27 13:21 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
英偉達被曝將在華推出閹割版5090顯卡
2024-11-27 12:51 觀網(wǎng)財經(jīng)-科創(chuàng) -
A股深V翻紅,個股跌多漲少
2024-11-27 12:43 觀網(wǎng)財經(jīng)-金融 -
小米在武漢新建智能家電工廠,一期聚焦家用空調(diào)
2024-11-27 12:05 觀網(wǎng)財經(jīng)-科創(chuàng) -
Sora突遭泄露,OpenAI急“拔網(wǎng)線”
2024-11-27 12:02 觀網(wǎng)財經(jīng)-科創(chuàng) -
酷狗回懟網(wǎng)易云音樂:DIY功能不是我先做的么?
2024-11-27 11:10 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
騰訊:國行Switch將停止網(wǎng)絡類服務
2024-11-27 10:29 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
1-10月份全國規(guī)模以上工業(yè)企業(yè)利潤同比下降4.3%
2024-11-27 10:03 宏觀經(jīng)濟
相關推薦 -
-
美國放風:伊朗有動作了 評論 7靠萬斯“決勝一票”,“大而美”法案驚險闖關參議院 評論 149電氣化已落后亞洲,“大而美”法案或令美國雪上加霜 評論 71為什么這支國足被普遍看好? 評論 94被批評“過于親近中國”,澳總理這樣回應 評論 83最新聞 Hot
-
好一個“舉賢不避親”,特朗普推薦兒媳參選
-
開庭前妻子墜樓身亡,柯文哲前副手痛哭:臺灣怎么變成這樣
-
美國放風:伊朗有動作了
-
“中方正考慮邀請李在明出席”
-
“中國洋垃圾禁令震動全球”,馬來西亞也跟了
-
靠萬斯“決勝一票”,“大而美”法案驚險闖關參議院
-
白宮官員:沒人在乎馬斯克說了什么
-
日澳印各懷心事,魯比奧還想著中國:別談了,得干實事,搞礦!
-
三年來首次,普京與馬克龍通話
-
“我會給日本寫信感謝他們,給他們加關稅”
-
特朗普:奧巴馬糟糕小布什低分,拜登史上最差,而我…
-
美財長:中國加快稀土出口吧,回到過去
-
“《新華字典》例句稱小孩是累贅”再引爭議,多方回應
-
英國樂隊在音樂節(jié)上高喊“以軍去死”,英美都“炸”了
-
多地宣布“解禁”中華田園犬
-
內(nèi)塔尼亞胡證實下周訪美,除了特朗普還要見他們
-