最近2018中文字幕2019视频,在线精品亚洲一区二区,一本色道无码道在线观看

APP下載

掃一掃

下載觀察者APP

學(xué)會(huì)反思的國(guó)產(chǎn)大模型，真變強(qiáng)了？
- 張廣凱13764468101
分享到：

2024-10-18 16:17:33 字號(hào)：A- A A+ 來(lái)源：觀察者網(wǎng)

真正能夠像人類一樣進(jìn)行邏輯推理的大模型，距離我們還有多遠(yuǎn)？

隨著OpenAI推出更側(cè)重推理能力的 o1大模型，推理大模型正成為行業(yè)新的競(jìng)爭(zhēng)方向。本周一，月之暗面推出的Kimi探索版，成為國(guó)產(chǎn)推理大模型的最新代表。

讓大模型學(xué)會(huì)推理的訣竅是什么？各家廠商都提到了一個(gè)關(guān)鍵詞——反思。通過(guò)將復(fù)雜問(wèn)題一步步拆分，并且對(duì)每一步的輸出結(jié)果進(jìn)行反思檢驗(yàn)，是降低大模型幻覺(jué)的有效途徑。而這樣的思路，看上去與人類的邏輯推理確實(shí)有一定相似性。

不過(guò)經(jīng)過(guò)實(shí)測(cè)，我們發(fā)現(xiàn)現(xiàn)有大模型的邏輯推理能力仍然難以讓人滿意，這背后可能仍然繞不開(kāi)大模型底層原理的限制。

但有趣的是，為了提高推理能力，國(guó)產(chǎn)大模型在使用工具的路上越走越遠(yuǎn)，反而可能是當(dāng)下最現(xiàn)實(shí)的大模型落地途徑之一。

推理大模型，真的會(huì)做題嗎？

上周五，月之暗面宣布推出Kimi探索版，并于本周一正式上線。

據(jù)官方介紹，Kimi探索版具備AI自主搜索能力，可以模擬人類的推理思考過(guò)程，多級(jí)分解復(fù)雜問(wèn)題，執(zhí)行深度搜索，并即時(shí)反思改進(jìn)結(jié)果，提供更全面和準(zhǔn)確的答案，幫助你更高效地完成分析調(diào)研等復(fù)雜任務(wù)。

那么實(shí)測(cè)來(lái)看，Kimi探索版實(shí)力究竟如何？

談到推理能力，人們往往最先想到的是數(shù)學(xué)。很多測(cè)評(píng)都使用高等數(shù)學(xué)題目去測(cè)試大模型的推理能力，并且往往能夠取得不錯(cuò)的效果。

不過(guò)從實(shí)用層面來(lái)看，大部分用戶的需求并不是求解高數(shù)，而是解決日常生活中的應(yīng)用題。

所以，我們打算讓Kimi替最近上市的新車樂(lè)道L60算筆賬。

蔚來(lái)?yè)Q電體系下獨(dú)特的BaaS電池租賃方案，讓不少消費(fèi)者在計(jì)算用車成本的時(shí)候也感到頭疼，樂(lè)道L60發(fā)布會(huì)后，到底怎么買更劃算引起了網(wǎng)友熱烈討論，不少網(wǎng)友甚至搬出了專業(yè)的會(huì)計(jì)知識(shí)。

我們問(wèn)Kimi的問(wèn)題是這樣的：分析樂(lè)道L60車輛采用BaaS方案下的每年用車成本，BaaS方案和電池買斷方案哪個(gè)更劃算。

可以看到，Kimi正確理解了BaaS的含義，雖然沒(méi)有意識(shí)到樂(lè)道是換電而不是充電，不過(guò)按充電成本算也沒(méi)有太大出入，整個(gè)邏輯基本是清晰的。

問(wèn)題在于，雖然一開(kāi)始提到了購(gòu)車價(jià)格，但是在總用車成本的計(jì)算上，Kimi卻并沒(méi)有加上購(gòu)車成本的折舊，沒(méi)達(dá)到我們想要的效果。

于是，我們要求Kimi把折舊成本考慮進(jìn)去，結(jié)果是這樣的：

在最后的結(jié)論里，Kimi對(duì)購(gòu)車價(jià)格和折舊成本進(jìn)行了重復(fù)計(jì)算，顯然是錯(cuò)誤的。而這個(gè)錯(cuò)誤，恰恰說(shuō)明Kimi對(duì)于成本和折舊的邏輯理解還存在不足。

作為對(duì)比，我們用ChatGPT-4o mini測(cè)試了相同的問(wèn)題，發(fā)現(xiàn)4o mini可以正確理解包括折舊、BaaS在內(nèi)的各項(xiàng)成本的邏輯，可是卻沒(méi)有正確獲得車輛的價(jià)格。

也就是說(shuō)，Kimi并沒(méi)有表現(xiàn)出比GPT-4更好的邏輯能力，但是在中文信息檢索能力上卻更加優(yōu)秀。事實(shí)上，后者也是Kimi真正的強(qiáng)項(xiàng)所在，后面我們會(huì)再次討論這一點(diǎn)。

不過(guò)在此之前，我們還發(fā)現(xiàn)了一個(gè)相對(duì)小眾的選手——學(xué)而思九章大模型，也相當(dāng)值得關(guān)注。

提到學(xué)而思，大家都知道它是以教培起家，尤其擅長(zhǎng)數(shù)學(xué)教學(xué)。而九章大模型也繼承了學(xué)而思的特長(zhǎng)，專攻教育領(lǐng)域，并且宣稱有更好的數(shù)學(xué)能力。

當(dāng)我們以上述問(wèn)題測(cè)試九章大模型時(shí)，它的表現(xiàn)非常出色——不僅能正確理解車輛殘值、成本均攤等邏輯概念，還具體獲得了樂(lè)道BaaS“滿四減一”優(yōu)惠、實(shí)際電耗水平等信息，因此給出的答案更能解決問(wèn)題。

但美中不足的是，它并沒(méi)有給出車輛折舊的具體數(shù)字，導(dǎo)致最終沒(méi)有輸出一個(gè)明確的答案。

這究竟是一個(gè)缺點(diǎn)，還是優(yōu)點(diǎn)？其實(shí)從邏輯來(lái)看，九章這么做的原因，應(yīng)該是同樣出于“具體問(wèn)題具體分析”的理念，由于自己沒(méi)辦法確定相關(guān)車輛的具體折舊率，因此就直接說(shuō)明自己的不確定，充分保證了答案的嚴(yán)謹(jǐn)性。

看上去，九章的確更像是一個(gè)嚴(yán)謹(jǐn)、可靠的數(shù)學(xué)模型。

AI可能還沒(méi)有學(xué)會(huì)推理

強(qiáng)化大語(yǔ)言模型的推理能力，在技術(shù)上是怎么實(shí)現(xiàn)的？大家都提到了一個(gè)關(guān)鍵詞——反思。

月之暗面方面指出：就像人一樣，Kimi探索版可以借助反思能力，來(lái)提升和改進(jìn)回答的質(zhì)量。面對(duì)開(kāi)放探索型問(wèn)題，Kimi探索版發(fā)現(xiàn)第一次回答的信息存在缺失，會(huì)主動(dòng)補(bǔ)充回答更多。面對(duì)數(shù)字相關(guān)的搜索問(wèn)題，Kimi了解更多信息后如果發(fā)現(xiàn)了數(shù)據(jù)沖突，則會(huì)及時(shí)補(bǔ)充提供多方視角的信息供參考決策。

從上面的演示中可以看到，Kimi會(huì)把自己的思考過(guò)程展示出來(lái)，讓用戶明確看到自己進(jìn)行了一次補(bǔ)充檢索。

九章大模型負(fù)責(zé)人白錦峰進(jìn)一步解釋說(shuō)，同大模型類似，人類在幼年時(shí)期同樣缺乏邏輯能力，會(huì)產(chǎn)生幻覺(jué)。但隨著人類的成長(zhǎng)，會(huì)逐漸學(xué)會(huì)邏輯推理，讓自己的觀點(diǎn)在邏輯上自洽，并拿觀點(diǎn)去跟已經(jīng)存在的事實(shí)進(jìn)行校驗(yàn)，從而消除幻覺(jué)。

白錦峰表示，目前大語(yǔ)言模型的第一性原理是Next Token Prediction，也就是通過(guò)預(yù)測(cè)下一個(gè)字符的方式給出答案，而這種預(yù)測(cè)是基于概率的，這決定了大模型一定會(huì)有出錯(cuò)的概率。

為了提升準(zhǔn)確率，目前的推理大模型普遍應(yīng)用了CoT（思維鏈）和Voting&Verifier兩種算法，前者將復(fù)雜問(wèn)題拆分為多個(gè)步驟，后者則對(duì)于每一步的結(jié)果進(jìn)行反思，多做幾次檢驗(yàn)來(lái)找到一致性最高的答案。

這兩種算法模仿了人類思維方式中的校驗(yàn)過(guò)程，但其實(shí)仍然是基于概率，而不是邏輯推理。白錦峰指出，為了真正保證結(jié)果的正確性，大模型還需要應(yīng)用定律的技術(shù)，例如學(xué)會(huì)使用數(shù)學(xué)定律來(lái)解決問(wèn)題。

但是在應(yīng)用定律方面，大模型仍然存在根本性的難點(diǎn)。白錦峰舉例說(shuō)，像加法交換律（a+b=b+a）這樣簡(jiǎn)單的定律，人類可以直接理解公式，但是大模型只能通過(guò)窮舉大量的案例（1+2=2+1等）來(lái)悟到這個(gè)規(guī)律。

因此，對(duì)于當(dāng)前的大模型技術(shù)能否真正實(shí)現(xiàn)推理能力，很多人并不樂(lè)觀。美國(guó)著名AI科學(xué)家Yann LeCun近日就尖銳地表示，當(dāng)下的模型“似乎在進(jìn)行推理，但實(shí)際上它們只是在重復(fù)已經(jīng)訓(xùn)練過(guò)的信息”，按照現(xiàn)有訓(xùn)練方式，無(wú)論多少GPU都不會(huì)讓我們實(shí)現(xiàn)AGI。

蘋果AI團(tuán)隊(duì)的最新研究也認(rèn)為：大語(yǔ)言模型在相同問(wèn)題的不同版本上表現(xiàn)出高性能差異、難度略微增加時(shí)性能大幅下降以及對(duì)無(wú)關(guān)信息的敏感性，表明其推理能力很脆弱。它可能更像是復(fù)雜的模式匹配，而不是真正的邏輯推理。

從大模型到Agent

盡管以AGI的標(biāo)準(zhǔn)來(lái)衡量，目前的推理大模型還遠(yuǎn)遠(yuǎn)不夠完善，但是從實(shí)用層面，國(guó)產(chǎn)大模型正在這輪推理競(jìng)賽展現(xiàn)出了一個(gè)重要進(jìn)化——調(diào)用工具。

例如，九章大模型在解決數(shù)學(xué)問(wèn)題的時(shí)候，采用了一個(gè)看似原始卻非常實(shí)用的辦法——直接調(diào)用計(jì)算器。就像人類一樣，學(xué)會(huì)使用工具，也是AI應(yīng)當(dāng)具備的能力。

Kimi調(diào)用的工具則是搜索引擎。Kimi探索版在回答問(wèn)題時(shí)，最高能夠搜索并精讀500個(gè)網(wǎng)頁(yè)，相較于此前版本提升了10倍。

而且我們?cè)趯?shí)測(cè)中發(fā)現(xiàn)，Kimi列出的參考頁(yè)面普遍都來(lái)自較為權(quán)威的站點(diǎn)，內(nèi)容質(zhì)量也相對(duì)較高。在開(kāi)放性的問(wèn)題中，Kimi能夠充分保證輸出的客觀和準(zhǔn)確性，這才是探索版給我們印象最深刻的地方。

Kimi 探索版產(chǎn)品負(fù)責(zé)人表示，“如果 Kimi 搜不到的信息，那大概率用戶也很難自己通過(guò)傳統(tǒng)搜索引擎找到。未來(lái)搜索引擎會(huì)成為AI更擅長(zhǎng)調(diào)用的工具，人只需要專注于提出好的問(wèn)題，AI就可以結(jié)合模型本身的能力在龐大的互聯(lián)網(wǎng)中自主海量搜索，不斷反思迭代，更精準(zhǔn)地找到所需答案?！?

對(duì)于大部分普通用戶來(lái)說(shuō)，這話并不夸張。

從本質(zhì)上講，調(diào)用工具使得這些模型更接近于AI Agent的概念。尤其是對(duì)于Kimi探索版，相當(dāng)于替用戶完成了網(wǎng)頁(yè)檢索的任務(wù)，并且能夠幫助用戶去除搜索引擎中大量的低質(zhì)量和營(yíng)銷內(nèi)容，實(shí)用性極強(qiáng)。

如果說(shuō)，當(dāng)前的AI理論本身就限制了大模型難以實(shí)現(xiàn)真正的邏輯能力，那么在理論突破之前，如何最大化模型的實(shí)用性，讓AI從Copilot向Agent盡可能地邁進(jìn)，就是當(dāng)下最重要的命題。

此外，從Kimi、九章的表現(xiàn)來(lái)看，國(guó)產(chǎn)大模型如今繼續(xù)提升實(shí)用性的方式，并不一定是增加規(guī)模，或者提出什么獨(dú)特的算法，而是通過(guò)專注于自己最擅長(zhǎng)的垂直領(lǐng)域來(lái)提升準(zhǔn)確率，并形成獨(dú)特護(hù)城河。

白錦峰舉例說(shuō)，對(duì)于教育大模型來(lái)說(shuō)，能答對(duì)問(wèn)題和能教好學(xué)生之間，仍然存在區(qū)別。例如同樣是除法，用除號(hào)還是用分號(hào)來(lái)表示，在教學(xué)中就是不一樣的。對(duì)于小學(xué)生來(lái)說(shuō)，因?yàn)檫€沒(méi)有學(xué)過(guò)分?jǐn)?shù)，所以用分號(hào)就是錯(cuò)誤的回答。因此，學(xué)而思利用自己長(zhǎng)期積累的教材和教師資源，能夠做出更好的教育大模型。

專注垂直，也能夠讓成本更加可控。學(xué)而思方面人士向觀察者網(wǎng)直言，大模型初期投入是不可避免的，目前也看不到直接的回報(bào)，但投入又是必須要做的，否則等到技術(shù)成熟再發(fā)力，早就失去了上牌桌的機(jī)會(huì)。

但是學(xué)而思并沒(méi)有選擇去自己研發(fā)基座大模型，而是基于開(kāi)源大模型的基礎(chǔ)，在百度云上進(jìn)行千卡規(guī)模的訓(xùn)練，以可控的成本實(shí)現(xiàn)了不錯(cuò)的性能。

因此，國(guó)產(chǎn)推理大模型當(dāng)下給我們的最大啟示，或許仍然是實(shí)用為王。
|

舉報(bào)
- 違反法律法規(guī)
- 垃圾信息、廣告
- 色情、淫穢信息
- 人身攻擊
- 謠言、不實(shí)信息
- 冒充，冒用信息
- 破壞社區(qū)秩序
- 其他
- 涉未成年人有害信息
觀察者網(wǎng)舉報(bào)制度規(guī)范
確定取消
標(biāo)簽大模型
- 責(zé)任編輯: 張廣凱
- 滬指大漲近3%，創(chuàng)業(yè)板指飆升近8%！兩市成交額創(chuàng)9日以來(lái)新高
  
  2024-10-18 15:12 金融觀察
- 滬深兩市成交突破1.5萬(wàn)億，芯片行業(yè)ETF放量飆升
  
  2024-10-18 14:10 觀網(wǎng)財(cái)經(jīng)-金融
- 吳清：加快落實(shí)中長(zhǎng)資金入市，嚴(yán)懲違規(guī)減持
  
  2024-10-18 13:59 觀網(wǎng)財(cái)經(jīng)-宏觀
- 央行兩項(xiàng)新工具今日實(shí)施！“預(yù)計(jì)還有降準(zhǔn)降息”
  
  2024-10-18 12:50 觀網(wǎng)財(cái)經(jīng)-金融
- 諾基亞在中國(guó)裁員近2000人，在華份額已不到5%
  
  2024-10-18 11:19 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 李德仁院士提出“時(shí)空智能學(xué)”
  
  2024-10-18 10:00 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 歐洲央行宣布降息25個(gè)基點(diǎn)
  
  2024-10-17 20:34 金融觀察
- 美的科技月：累計(jì)獎(jiǎng)勵(lì)超5億元，加強(qiáng)全球人才引入
  
  2024-10-17 20:26 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 存量房貸下調(diào)后還有紅包：下月起定價(jià)機(jī)制可重新協(xié)商？
  
  2024-10-17 18:35 觀網(wǎng)財(cái)經(jīng)-金融
- ?茅臺(tái)在香港降價(jià)千元？門店員工稱暫未接到通知
  
  2024-10-17 18:04 觀網(wǎng)財(cái)經(jīng)-消費(fèi)
- 成都將迎大規(guī)模拆遷？房小團(tuán)發(fā)布澄清聲明
  
  2024-10-17 16:23 觀網(wǎng)財(cái)經(jīng)-房產(chǎn)
- 英特爾向聯(lián)想交付1.8納米CPU樣品
  
  2024-10-17 16:18 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
- 李彥宏：AI幻覺(jué)已基本解決，泡沫后1%的AI企業(yè)能脫穎而出
  
  2024-10-17 15:45 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng)
- 你的寶貝正在路上，終于被翻譯對(duì)了
  
  2024-10-17 13:41 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng)
- 京東物流官宣：將為淘寶天貓商家提供服務(wù)
  
  2024-10-17 13:41 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng)
- 英特爾表態(tài)
  
  2024-10-17 13:06
- 住建部回應(yīng)樓市“虹吸效應(yīng)”
  
  2024-10-17 10:48 觀網(wǎng)財(cái)經(jīng)-房產(chǎn)
- 朔爾茨再批歐盟對(duì)華關(guān)稅：我的訴求是…
  
  2024-10-17 09:16 德意志
- 無(wú)錫新政：可用上海二手房換購(gòu)無(wú)錫新房
  
  2024-10-16 23:03 觀網(wǎng)財(cái)經(jīng)-房產(chǎn)
- “中國(guó)拯救世界”，一部正在發(fā)生的偉大史詩(shī)
  
  2024-10-16 18:17 觀察者頭條
搜索

   觀察者頭條查看全部

美國(guó)放風(fēng)：伊朗有動(dòng)作了評(píng)論 7

靠萬(wàn)斯“決勝一票”，“大而美”法案驚險(xiǎn)闖關(guān)參議院評(píng)論 149

電氣化已落后亞洲，“大而美”法案或令美國(guó)雪上加霜評(píng)論 71

為什么這支國(guó)足被普遍看好？評(píng)論 94

被批評(píng)“過(guò)于親近中國(guó)”，澳總理這樣回應(yīng) 評(píng)論 83

   風(fēng)聞 · 24小時(shí)最熱查看全部

   最新視頻查看全部
最新聞 Hot
快訊

成人免费午夜在线观看,伊人久久精品,一区二区三区精品

學(xué)會(huì)反思的國(guó)產(chǎn)大模型，真變強(qiáng)了？

滬指大漲近3%，創(chuàng)業(yè)板指飆升近8%！兩市成交額創(chuàng)9日以來(lái)新高

滬深兩市成交突破1.5萬(wàn)億，芯片行業(yè)ETF放量飆升

吳清：加快落實(shí)中長(zhǎng)資金入市，嚴(yán)懲違規(guī)減持

央行兩項(xiàng)新工具今日實(shí)施！“預(yù)計(jì)還有降準(zhǔn)降息”

諾基亞在中國(guó)裁員近2000人，在華份額已不到5%

李德仁院士提出“時(shí)空智能學(xué)”

歐洲央行宣布降息25個(gè)基點(diǎn)

美的科技月：累計(jì)獎(jiǎng)勵(lì)超5億元，加強(qiáng)全球人才引入

存量房貸下調(diào)后還有紅包：下月起定價(jià)機(jī)制可重新協(xié)商？

?茅臺(tái)在香港降價(jià)千元？門店員工稱暫未接到通知

成都將迎大規(guī)模拆遷？房小團(tuán)發(fā)布澄清聲明

英特爾向聯(lián)想交付1.8納米CPU樣品

李彥宏：AI幻覺(jué)已基本解決，泡沫后1%的AI企業(yè)能脫穎而出

你的寶貝正在路上，終于被翻譯對(duì)了

京東物流官宣：將為淘寶天貓商家提供服務(wù)

英特爾表態(tài)

住建部回應(yīng)樓市“虹吸效應(yīng)”

朔爾茨再批歐盟對(duì)華關(guān)稅：我的訴求是…

無(wú)錫新政：可用上海二手房換購(gòu)無(wú)錫新房

“中國(guó)拯救世界”，一部正在發(fā)生的偉大史詩(shī)

好一個(gè)“舉賢不避親”，特朗普推薦兒媳參選

開(kāi)庭前妻子墜樓身亡，柯文哲前副手痛哭：臺(tái)灣怎么變成這樣

美國(guó)放風(fēng)：伊朗有動(dòng)作了

“中方正考慮邀請(qǐng)李在明出席”

“中國(guó)洋垃圾禁令震動(dòng)全球”，馬來(lái)西亞也跟了

靠萬(wàn)斯“決勝一票”，“大而美”法案驚險(xiǎn)闖關(guān)參議院

白宮官員：沒(méi)人在乎馬斯克說(shuō)了什么

日澳印各懷心事，魯比奧還想著中國(guó)：別談了，得干實(shí)事，搞礦！

三年來(lái)首次，普京與馬克龍通話

“我會(huì)給日本寫信感謝他們，給他們加關(guān)稅”

特朗普：奧巴馬糟糕小布什低分，拜登史上最差，而我…

美財(cái)長(zhǎng)：中國(guó)加快稀土出口吧，回到過(guò)去

“《新華字典》例句稱小孩是累贅”再引爭(zhēng)議，多方回應(yīng)

英國(guó)樂(lè)隊(duì)在音樂(lè)節(jié)上高喊“以軍去死”，英美都“炸”了

多地宣布“解禁”中華田園犬

內(nèi)塔尼亞胡證實(shí)下周訪美，除了特朗普還要見(jiàn)他們