-
學(xué)會(huì)反思的國(guó)產(chǎn)大模型,真變強(qiáng)了?
-
張廣凱13764468101
真正能夠像人類一樣進(jìn)行邏輯推理的大模型,距離我們還有多遠(yuǎn)?
隨著OpenAI推出更側(cè)重推理能力的 o1大模型,推理大模型正成為行業(yè)新的競(jìng)爭(zhēng)方向。本周一,月之暗面推出的Kimi探索版,成為國(guó)產(chǎn)推理大模型的最新代表。
讓大模型學(xué)會(huì)推理的訣竅是什么?各家廠商都提到了一個(gè)關(guān)鍵詞——反思。通過(guò)將復(fù)雜問(wèn)題一步步拆分,并且對(duì)每一步的輸出結(jié)果進(jìn)行反思檢驗(yàn),是降低大模型幻覺(jué)的有效途徑。而這樣的思路,看上去與人類的邏輯推理確實(shí)有一定相似性。
不過(guò)經(jīng)過(guò)實(shí)測(cè),我們發(fā)現(xiàn)現(xiàn)有大模型的邏輯推理能力仍然難以讓人滿意,這背后可能仍然繞不開(kāi)大模型底層原理的限制。
但有趣的是,為了提高推理能力,國(guó)產(chǎn)大模型在使用工具的路上越走越遠(yuǎn),反而可能是當(dāng)下最現(xiàn)實(shí)的大模型落地途徑之一。
推理大模型,真的會(huì)做題嗎?
上周五,月之暗面宣布推出Kimi探索版,并于本周一正式上線。
據(jù)官方介紹,Kimi探索版具備AI自主搜索能力,可以模擬人類的推理思考過(guò)程,多級(jí)分解復(fù)雜問(wèn)題,執(zhí)行深度搜索,并即時(shí)反思改進(jìn)結(jié)果,提供更全面和準(zhǔn)確的答案,幫助你更高效地完成分析調(diào)研等復(fù)雜任務(wù)。
那么實(shí)測(cè)來(lái)看,Kimi探索版實(shí)力究竟如何?
談到推理能力,人們往往最先想到的是數(shù)學(xué)。很多測(cè)評(píng)都使用高等數(shù)學(xué)題目去測(cè)試大模型的推理能力,并且往往能夠取得不錯(cuò)的效果。
不過(guò)從實(shí)用層面來(lái)看,大部分用戶的需求并不是求解高數(shù),而是解決日常生活中的應(yīng)用題。
所以,我們打算讓Kimi替最近上市的新車樂(lè)道L60算筆賬。
蔚來(lái)?yè)Q電體系下獨(dú)特的BaaS電池租賃方案,讓不少消費(fèi)者在計(jì)算用車成本的時(shí)候也感到頭疼,樂(lè)道L60發(fā)布會(huì)后,到底怎么買更劃算引起了網(wǎng)友熱烈討論,不少網(wǎng)友甚至搬出了專業(yè)的會(huì)計(jì)知識(shí)。
我們問(wèn)Kimi的問(wèn)題是這樣的:分析樂(lè)道L60車輛采用BaaS方案下的每年用車成本,BaaS方案和電池買斷方案哪個(gè)更劃算。
可以看到,Kimi正確理解了BaaS的含義,雖然沒(méi)有意識(shí)到樂(lè)道是換電而不是充電,不過(guò)按充電成本算也沒(méi)有太大出入,整個(gè)邏輯基本是清晰的。
問(wèn)題在于,雖然一開(kāi)始提到了購(gòu)車價(jià)格,但是在總用車成本的計(jì)算上,Kimi卻并沒(méi)有加上購(gòu)車成本的折舊,沒(méi)達(dá)到我們想要的效果。
于是,我們要求Kimi把折舊成本考慮進(jìn)去,結(jié)果是這樣的:
在最后的結(jié)論里,Kimi對(duì)購(gòu)車價(jià)格和折舊成本進(jìn)行了重復(fù)計(jì)算,顯然是錯(cuò)誤的。而這個(gè)錯(cuò)誤,恰恰說(shuō)明Kimi對(duì)于成本和折舊的邏輯理解還存在不足。
作為對(duì)比,我們用ChatGPT-4o mini測(cè)試了相同的問(wèn)題,發(fā)現(xiàn)4o mini可以正確理解包括折舊、BaaS在內(nèi)的各項(xiàng)成本的邏輯,可是卻沒(méi)有正確獲得車輛的價(jià)格。
也就是說(shuō),Kimi并沒(méi)有表現(xiàn)出比GPT-4更好的邏輯能力,但是在中文信息檢索能力上卻更加優(yōu)秀。事實(shí)上,后者也是Kimi真正的強(qiáng)項(xiàng)所在,后面我們會(huì)再次討論這一點(diǎn)。
不過(guò)在此之前,我們還發(fā)現(xiàn)了一個(gè)相對(duì)小眾的選手——學(xué)而思九章大模型,也相當(dāng)值得關(guān)注。
提到學(xué)而思,大家都知道它是以教培起家,尤其擅長(zhǎng)數(shù)學(xué)教學(xué)。而九章大模型也繼承了學(xué)而思的特長(zhǎng),專攻教育領(lǐng)域,并且宣稱有更好的數(shù)學(xué)能力。
當(dāng)我們以上述問(wèn)題測(cè)試九章大模型時(shí),它的表現(xiàn)非常出色——不僅能正確理解車輛殘值、成本均攤等邏輯概念,還具體獲得了樂(lè)道BaaS“滿四減一”優(yōu)惠、實(shí)際電耗水平等信息,因此給出的答案更能解決問(wèn)題。
但美中不足的是,它并沒(méi)有給出車輛折舊的具體數(shù)字,導(dǎo)致最終沒(méi)有輸出一個(gè)明確的答案。
這究竟是一個(gè)缺點(diǎn),還是優(yōu)點(diǎn)?其實(shí)從邏輯來(lái)看,九章這么做的原因,應(yīng)該是同樣出于“具體問(wèn)題具體分析”的理念,由于自己沒(méi)辦法確定相關(guān)車輛的具體折舊率,因此就直接說(shuō)明自己的不確定,充分保證了答案的嚴(yán)謹(jǐn)性。
看上去,九章的確更像是一個(gè)嚴(yán)謹(jǐn)、可靠的數(shù)學(xué)模型。
AI可能還沒(méi)有學(xué)會(huì)推理
強(qiáng)化大語(yǔ)言模型的推理能力,在技術(shù)上是怎么實(shí)現(xiàn)的?大家都提到了一個(gè)關(guān)鍵詞——反思。
月之暗面方面指出:就像人一樣,Kimi探索版可以借助反思能力,來(lái)提升和改進(jìn)回答的質(zhì)量。面對(duì)開(kāi)放探索型問(wèn)題,Kimi探索版發(fā)現(xiàn)第一次回答的信息存在缺失,會(huì)主動(dòng)補(bǔ)充回答更多。面對(duì)數(shù)字相關(guān)的搜索問(wèn)題,Kimi了解更多信息后如果發(fā)現(xiàn)了數(shù)據(jù)沖突,則會(huì)及時(shí)補(bǔ)充提供多方視角的信息供參考決策。
從上面的演示中可以看到,Kimi會(huì)把自己的思考過(guò)程展示出來(lái),讓用戶明確看到自己進(jìn)行了一次補(bǔ)充檢索。
九章大模型負(fù)責(zé)人白錦峰進(jìn)一步解釋說(shuō),同大模型類似,人類在幼年時(shí)期同樣缺乏邏輯能力,會(huì)產(chǎn)生幻覺(jué)。但隨著人類的成長(zhǎng),會(huì)逐漸學(xué)會(huì)邏輯推理,讓自己的觀點(diǎn)在邏輯上自洽,并拿觀點(diǎn)去跟已經(jīng)存在的事實(shí)進(jìn)行校驗(yàn),從而消除幻覺(jué)。
白錦峰表示,目前大語(yǔ)言模型的第一性原理是Next Token Prediction,也就是通過(guò)預(yù)測(cè)下一個(gè)字符的方式給出答案,而這種預(yù)測(cè)是基于概率的,這決定了大模型一定會(huì)有出錯(cuò)的概率。
為了提升準(zhǔn)確率,目前的推理大模型普遍應(yīng)用了CoT(思維鏈)和Voting&Verifier兩種算法,前者將復(fù)雜問(wèn)題拆分為多個(gè)步驟,后者則對(duì)于每一步的結(jié)果進(jìn)行反思,多做幾次檢驗(yàn)來(lái)找到一致性最高的答案。
這兩種算法模仿了人類思維方式中的校驗(yàn)過(guò)程,但其實(shí)仍然是基于概率,而不是邏輯推理。白錦峰指出,為了真正保證結(jié)果的正確性,大模型還需要應(yīng)用定律的技術(shù),例如學(xué)會(huì)使用數(shù)學(xué)定律來(lái)解決問(wèn)題。
但是在應(yīng)用定律方面,大模型仍然存在根本性的難點(diǎn)。白錦峰舉例說(shuō),像加法交換律(a+b=b+a)這樣簡(jiǎn)單的定律,人類可以直接理解公式,但是大模型只能通過(guò)窮舉大量的案例(1+2=2+1等)來(lái)悟到這個(gè)規(guī)律。
因此,對(duì)于當(dāng)前的大模型技術(shù)能否真正實(shí)現(xiàn)推理能力,很多人并不樂(lè)觀。美國(guó)著名AI科學(xué)家Yann LeCun近日就尖銳地表示,當(dāng)下的模型“似乎在進(jìn)行推理,但實(shí)際上它們只是在重復(fù)已經(jīng)訓(xùn)練過(guò)的信息”,按照現(xiàn)有訓(xùn)練方式,無(wú)論多少GPU都不會(huì)讓我們實(shí)現(xiàn)AGI。
蘋果AI團(tuán)隊(duì)的最新研究也認(rèn)為:大語(yǔ)言模型在相同問(wèn)題的不同版本上表現(xiàn)出高性能差異、難度略微增加時(shí)性能大幅下降以及對(duì)無(wú)關(guān)信息的敏感性,表明其推理能力很脆弱。它可能更像是復(fù)雜的模式匹配,而不是真正的邏輯推理。
從大模型到Agent
盡管以AGI的標(biāo)準(zhǔn)來(lái)衡量,目前的推理大模型還遠(yuǎn)遠(yuǎn)不夠完善,但是從實(shí)用層面,國(guó)產(chǎn)大模型正在這輪推理競(jìng)賽展現(xiàn)出了一個(gè)重要進(jìn)化——調(diào)用工具。
例如,九章大模型在解決數(shù)學(xué)問(wèn)題的時(shí)候,采用了一個(gè)看似原始卻非常實(shí)用的辦法——直接調(diào)用計(jì)算器。就像人類一樣,學(xué)會(huì)使用工具,也是AI應(yīng)當(dāng)具備的能力。
Kimi調(diào)用的工具則是搜索引擎。Kimi探索版在回答問(wèn)題時(shí),最高能夠搜索并精讀500個(gè)網(wǎng)頁(yè),相較于此前版本提升了10倍。
而且我們?cè)趯?shí)測(cè)中發(fā)現(xiàn),Kimi列出的參考頁(yè)面普遍都來(lái)自較為權(quán)威的站點(diǎn),內(nèi)容質(zhì)量也相對(duì)較高。在開(kāi)放性的問(wèn)題中,Kimi能夠充分保證輸出的客觀和準(zhǔn)確性,這才是探索版給我們印象最深刻的地方。
Kimi 探索版產(chǎn)品負(fù)責(zé)人表示,“如果 Kimi 搜不到的信息,那大概率用戶也很難自己通過(guò)傳統(tǒng)搜索引擎找到。未來(lái)搜索引擎會(huì)成為AI更擅長(zhǎng)調(diào)用的工具,人只需要專注于提出好的問(wèn)題,AI就可以結(jié)合模型本身的能力在龐大的互聯(lián)網(wǎng)中自主海量搜索,不斷反思迭代,更精準(zhǔn)地找到所需答案?!?
對(duì)于大部分普通用戶來(lái)說(shuō),這話并不夸張。
從本質(zhì)上講,調(diào)用工具使得這些模型更接近于AI Agent的概念。尤其是對(duì)于Kimi探索版,相當(dāng)于替用戶完成了網(wǎng)頁(yè)檢索的任務(wù),并且能夠幫助用戶去除搜索引擎中大量的低質(zhì)量和營(yíng)銷內(nèi)容,實(shí)用性極強(qiáng)。
如果說(shuō),當(dāng)前的AI理論本身就限制了大模型難以實(shí)現(xiàn)真正的邏輯能力,那么在理論突破之前,如何最大化模型的實(shí)用性,讓AI從Copilot向Agent盡可能地邁進(jìn),就是當(dāng)下最重要的命題。
此外,從Kimi、九章的表現(xiàn)來(lái)看,國(guó)產(chǎn)大模型如今繼續(xù)提升實(shí)用性的方式,并不一定是增加規(guī)模,或者提出什么獨(dú)特的算法,而是通過(guò)專注于自己最擅長(zhǎng)的垂直領(lǐng)域來(lái)提升準(zhǔn)確率,并形成獨(dú)特護(hù)城河。
白錦峰舉例說(shuō),對(duì)于教育大模型來(lái)說(shuō),能答對(duì)問(wèn)題和能教好學(xué)生之間,仍然存在區(qū)別。例如同樣是除法,用除號(hào)還是用分號(hào)來(lái)表示,在教學(xué)中就是不一樣的。對(duì)于小學(xué)生來(lái)說(shuō),因?yàn)檫€沒(méi)有學(xué)過(guò)分?jǐn)?shù),所以用分號(hào)就是錯(cuò)誤的回答。因此,學(xué)而思利用自己長(zhǎng)期積累的教材和教師資源,能夠做出更好的教育大模型。
專注垂直,也能夠讓成本更加可控。學(xué)而思方面人士向觀察者網(wǎng)直言,大模型初期投入是不可避免的,目前也看不到直接的回報(bào),但投入又是必須要做的,否則等到技術(shù)成熟再發(fā)力,早就失去了上牌桌的機(jī)會(huì)。
但是學(xué)而思并沒(méi)有選擇去自己研發(fā)基座大模型,而是基于開(kāi)源大模型的基礎(chǔ),在百度云上進(jìn)行千卡規(guī)模的訓(xùn)練,以可控的成本實(shí)現(xiàn)了不錯(cuò)的性能。
因此,國(guó)產(chǎn)推理大模型當(dāng)下給我們的最大啟示,或許仍然是實(shí)用為王。
標(biāo)簽 大模型- 責(zé)任編輯: 張廣凱 
-
滬指大漲近3%,創(chuàng)業(yè)板指飆升近8%!兩市成交額創(chuàng)9日以來(lái)新高
2024-10-18 15:12 金融觀察 -
滬深兩市成交突破1.5萬(wàn)億,芯片行業(yè)ETF放量飆升
2024-10-18 14:10 觀網(wǎng)財(cái)經(jīng)-金融 -
吳清:加快落實(shí)中長(zhǎng)資金入市,嚴(yán)懲違規(guī)減持
2024-10-18 13:59 觀網(wǎng)財(cái)經(jīng)-宏觀 -
央行兩項(xiàng)新工具今日實(shí)施!“預(yù)計(jì)還有降準(zhǔn)降息”
2024-10-18 12:50 觀網(wǎng)財(cái)經(jīng)-金融 -
諾基亞在中國(guó)裁員近2000人,在華份額已不到5%
2024-10-18 11:19 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
李德仁院士提出“時(shí)空智能學(xué)”
2024-10-18 10:00 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
歐洲央行宣布降息25個(gè)基點(diǎn)
2024-10-17 20:34 金融觀察 -
-
存量房貸下調(diào)后還有紅包:下月起定價(jià)機(jī)制可重新協(xié)商?
2024-10-17 18:35 觀網(wǎng)財(cái)經(jīng)-金融 -
?茅臺(tái)在香港降價(jià)千元?門店員工稱暫未接到通知
2024-10-17 18:04 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
成都將迎大規(guī)模拆遷?房小團(tuán)發(fā)布澄清聲明
2024-10-17 16:23 觀網(wǎng)財(cái)經(jīng)-房產(chǎn) -
英特爾向聯(lián)想交付1.8納米CPU樣品
2024-10-17 16:18 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
你的寶貝正在路上,終于被翻譯對(duì)了
2024-10-17 13:41 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
京東物流官宣:將為淘寶天貓商家提供服務(wù)
2024-10-17 13:41 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
英特爾表態(tài)
2024-10-17 13:06 -
住建部回應(yīng)樓市“虹吸效應(yīng)”
2024-10-17 10:48 觀網(wǎng)財(cái)經(jīng)-房產(chǎn) -
朔爾茨再批歐盟對(duì)華關(guān)稅:我的訴求是…
2024-10-17 09:16 德意志 -
無(wú)錫新政:可用上海二手房換購(gòu)無(wú)錫新房
2024-10-16 23:03 觀網(wǎng)財(cái)經(jīng)-房產(chǎn) -
“中國(guó)拯救世界”,一部正在發(fā)生的偉大史詩(shī)
2024-10-16 18:17 觀察者頭條
相關(guān)推薦 -
-
美國(guó)放風(fēng):伊朗有動(dòng)作了 評(píng)論 7靠萬(wàn)斯“決勝一票”,“大而美”法案驚險(xiǎn)闖關(guān)參議院 評(píng)論 149電氣化已落后亞洲,“大而美”法案或令美國(guó)雪上加霜 評(píng)論 71為什么這支國(guó)足被普遍看好? 評(píng)論 94被批評(píng)“過(guò)于親近中國(guó)”,澳總理這樣回應(yīng) 評(píng)論 83最新聞 Hot
-
好一個(gè)“舉賢不避親”,特朗普推薦兒媳參選
-
開(kāi)庭前妻子墜樓身亡,柯文哲前副手痛哭:臺(tái)灣怎么變成這樣
-
美國(guó)放風(fēng):伊朗有動(dòng)作了
-
“中方正考慮邀請(qǐng)李在明出席”
-
“中國(guó)洋垃圾禁令震動(dòng)全球”,馬來(lái)西亞也跟了
-
靠萬(wàn)斯“決勝一票”,“大而美”法案驚險(xiǎn)闖關(guān)參議院
-
白宮官員:沒(méi)人在乎馬斯克說(shuō)了什么
-
日澳印各懷心事,魯比奧還想著中國(guó):別談了,得干實(shí)事,搞礦!
-
三年來(lái)首次,普京與馬克龍通話
-
“我會(huì)給日本寫信感謝他們,給他們加關(guān)稅”
-
特朗普:奧巴馬糟糕小布什低分,拜登史上最差,而我…
-
美財(cái)長(zhǎng):中國(guó)加快稀土出口吧,回到過(guò)去
-
“《新華字典》例句稱小孩是累贅”再引爭(zhēng)議,多方回應(yīng)
-
英國(guó)樂(lè)隊(duì)在音樂(lè)節(jié)上高喊“以軍去死”,英美都“炸”了
-
多地宣布“解禁”中華田園犬
-
內(nèi)塔尼亞胡證實(shí)下周訪美,除了特朗普還要見(jiàn)他們
快訊- 暴雨洪澇致有群眾失聯(lián),河南省委書記部署,常務(wù)副省長(zhǎng)帶隊(duì)赴現(xiàn)場(chǎng)
- 國(guó)臺(tái)辦:“為臺(tái)澎金馬而戰(zhàn)”?賴清德不惜將無(wú)辜民眾綁上“臺(tái)獨(dú)”戰(zhàn)車
- 旅客自棄的充電寶如何處理?國(guó)際航班要查嗎?上海機(jī)場(chǎng)集團(tuán)回應(yīng)
- 谷歌因?yàn)E用安卓手機(jī)數(shù)據(jù)被判賠22億
- “中方正考慮邀請(qǐng)李在明出席”
- 以“高志凱線”為中印邊界?高志凱回應(yīng)
- 秦始皇遣使采藥昆侖石刻陷爭(zhēng)議,首次提出者回應(yīng)
- 京津冀一周觀察 | 北京昌平救援驢友將追繳費(fèi)用;河北生育津貼直發(fā)給個(gè)人
-