-
DeepSeek又有重大突破?一款未公開(kāi)大模型展現(xiàn)驚人能力
-
連政guanchazhewanxgun
DeepSeek再一次發(fā)布了強(qiáng)大的開(kāi)源大模型。
1月20日,國(guó)內(nèi)大模型公司深度求索(DeepSeek)在其公眾號(hào)公布了新一代開(kāi)源大模型DeepSeek-R1,該模型號(hào)稱在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩美國(guó)OpenAI公司最新的o1大模型正式版。
根據(jù)數(shù)據(jù),DeepSeek-R1在算法類代碼場(chǎng)景(Codeforces)和知識(shí)類測(cè)試(GPQA、MMLU)中的得分略低于OpenAI o1,但在工程類代碼場(chǎng)景(SWE-Bench Verified)、美國(guó)數(shù)學(xué)競(jìng)賽(AIME 2024, MATH)項(xiàng)目上,均超過(guò)了OpenAI o1 。
其中,與深度求索上月發(fā)布的大模型DeepSeek-V3相比,DeepSeek-R1在AIME 2024和Codeforces中的得分提升了近一倍,而其余項(xiàng)均有不同程度的提升。
深度求索還更新了用戶協(xié)議,明確模型開(kāi)源License將統(tǒng)一使用標(biāo)準(zhǔn)的MIT許可,同時(shí)還允許用戶利用模型輸出、通過(guò)模型蒸餾等方式訓(xùn)練其他模型。按照深度求索數(shù)據(jù)顯示,在以DeepSeek-R1基礎(chǔ)上進(jìn)行“蒸餾”的6個(gè)小模型中,32B和70B模型在多項(xiàng)能力上都實(shí)現(xiàn)了對(duì)標(biāo)OpenAI的o1-mini 的效果。
面對(duì)這個(gè)令人矚目的成績(jī),深度求索則解釋稱,DeepSeek-R1 后訓(xùn)練階段中大規(guī)模使用了強(qiáng)化學(xué)習(xí)(RL)技術(shù),在僅有極少人工標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。這意味著該模型幾乎跳過(guò)了監(jiān)督微調(diào)(SFT)步驟,就實(shí)現(xiàn)了推理能力自我提升。
DeepSeek-R1-Zero自然而然地學(xué)會(huì)用更多的思考時(shí)間來(lái)解決推理任務(wù)。深度求索
通常情況下,強(qiáng)化學(xué)習(xí)的好處是可以通過(guò)與外界評(píng)價(jià)反饋,不斷讓模型自我優(yōu)化,生成更符合人類偏好的內(nèi)容。而監(jiān)督微調(diào)則是指在預(yù)訓(xùn)練使用人工標(biāo)注的數(shù)據(jù)進(jìn)行干預(yù),可以讓生成的內(nèi)容更準(zhǔn)確且符合預(yù)期,這也是當(dāng)年ChatGPT成功的關(guān)鍵。但從成本上來(lái)說(shuō),強(qiáng)化學(xué)習(xí)雖然需要大量人類反饋,且訓(xùn)練復(fù)雜計(jì)算成本高,但監(jiān)督微調(diào)則非常依賴高質(zhì)量的人工標(biāo)注數(shù)據(jù)。
值得注意的是,目前深度求索向用戶提供的僅有DeepSeek-R1版本,而在其公開(kāi)測(cè)試結(jié)果中卻透露了另一個(gè)大模型 —— DeepSeek-R1-Zero。該模型完全通過(guò)大規(guī)模使用強(qiáng)化學(xué)習(xí)替代了監(jiān)督微調(diào),但也導(dǎo)致了一些問(wèn)題,因此未對(duì)外公開(kāi)。
更重要的是,工作人員發(fā)現(xiàn),在DeepSeek-R1-Zero自我學(xué)習(xí)的過(guò)程,隨著時(shí)間的增加,該模型“涌現(xiàn)”出了復(fù)雜的行為,如自我反思、評(píng)估先前步驟、自發(fā)尋找替代方案的情況,還包括一次“尤里卡時(shí)刻”(“aha moment)。
“尤里卡時(shí)刻”指人類突然理解一個(gè)以前無(wú)法理解的問(wèn)題或概念的某個(gè)時(shí)刻。
深度求索透露,這次“尤里卡”發(fā)生在DeepSeek-R1-Zero的的中間版本期間。當(dāng)時(shí)工作人員驚奇地發(fā)現(xiàn),在一道數(shù)學(xué)題中,該模型學(xué)會(huì)了使用擬人化的語(yǔ)氣進(jìn)行自我反思,并主動(dòng)為問(wèn)題分配了更多地時(shí)間進(jìn)行重新思考。
深度求索稱,工作人員并沒(méi)有教DeepSeek-R1-Zero如何解決問(wèn)題,只是提供了正確的激勵(lì),它就能自主發(fā)展出先進(jìn)的問(wèn)題解決策略?!斑@次尤里卡也提醒我們,強(qiáng)化學(xué)習(xí)有可能為人工智能解鎖新的智能水平,為以后發(fā)展出更自主和適應(yīng)性的模型鋪平道路?!?
不過(guò),雖然DeepSeek-R1-Zero展示出了強(qiáng)大的推理能力,但自身也出現(xiàn)了一些語(yǔ)言混亂及可讀性的問(wèn)題,因此深度求索通過(guò)引入數(shù)千條高質(zhì)量的冷啟動(dòng)數(shù)據(jù)和多段強(qiáng)化學(xué)習(xí)來(lái)解決這些問(wèn)題,并獲得了上文中對(duì)外正式公布的DeepSeek-R1大模型。
目前,DeepSeek-R1 API 服務(wù)定價(jià)為每百萬(wàn)輸入 tokens 1 元(緩存命中)/ 4 元(緩存未命中),每百萬(wàn)輸出 tokens 16 元。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 連政 
-
餓了么推出九項(xiàng)舉措:讓“算法”成為騎手的“辦法”
2025-01-21 18:04 大公司 -
京東方扣非凈利3年來(lái)首度預(yù)盈,供貨華為三折疊
2025-01-21 18:01 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
工信部:2025年試點(diǎn)部署萬(wàn)兆光網(wǎng)
2025-01-21 16:37 -
臺(tái)南市6.2級(jí)地震:臺(tái)積電稱各廠區(qū)營(yíng)運(yùn)正常
2025-01-21 16:36 今日財(cái)經(jīng) -
-
-
湖北省委書(shū)記王忠林與雷軍等企業(yè)家座談
2025-01-21 14:08 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
羅曉任中國(guó)商飛黨委副書(shū)記、董事
2025-01-20 21:01 大公司 -
黃仁勛現(xiàn)身北京,稱華為三折疊“難以置信”
2025-01-20 18:15 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
榮耀中國(guó)區(qū)CMO將離職
2025-01-20 16:32 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
前華為悍將掛帥,榮耀劍指高端化和全球化
2025-01-20 15:15 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
華為2024年分紅方案公布,收益率18%
2025-01-20 10:11 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
TikTok向美國(guó)用戶推送暫停服務(wù)通知
2025-01-19 10:57 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
馬斯克要收購(gòu)英特爾?
2025-01-18 14:48 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
荷蘭決定“隱藏”光刻機(jī)巨頭對(duì)華銷售情況
2025-01-18 13:24 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
龍芯中科去年凈利大跌88%,預(yù)虧超6億
2025-01-18 09:57 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
日本壓上國(guó)運(yùn)的氫能源,出路只能在中國(guó)?
2025-01-17 18:48 觀察者頭條
相關(guān)推薦 -
-
“美國(guó)已解除這項(xiàng)對(duì)華出口禁令” 評(píng)論 210家樂(lè)福CEO放話:對(duì)中國(guó)小包裹,要學(xué)特朗普征稅100% 評(píng)論 205“2027年起,整個(gè)產(chǎn)業(yè)將拱手讓給中國(guó)” 評(píng)論 122“不如申請(qǐng)成中國(guó)一省” ,德國(guó)鋰企竟如此激將歐盟 評(píng)論 125美兩員“大將”施壓未果,日本反倒成了“難啃的骨頭” 評(píng)論 95最新聞 Hot
-
“美國(guó)已解除這項(xiàng)對(duì)華出口禁令”
-
“印軍將全面排查中國(guó)產(chǎn)零部件”
-
美國(guó)和盟友鬧掰?“本質(zhì)沒(méi)變,中國(guó)需高度警惕”
-
斯塔默不吱聲,英財(cái)相當(dāng)場(chǎng)落淚,“哭崩”市場(chǎng)
-
家樂(lè)福CEO放話:對(duì)中國(guó)小包裹,要學(xué)特朗普征稅100%
-
莫迪表態(tài):金磚是重要平臺(tái)
-
“還想阻撓大陸武統(tǒng)?美國(guó)太晚了”
-
受賄數(shù)額特別巨大,齊同生被提起公訴
-
“美國(guó)占一半,中國(guó)分四成,歐洲...”
-
李在明最新涉華表態(tài)
-
叫完“爸爸”又被白宮整活,北約秘書(shū)長(zhǎng):驚喜且有趣
-
私自留存涉密材料,宋立強(qiáng)被開(kāi)黨籍
-
印度外長(zhǎng)在美表態(tài):要這么對(duì)中國(guó)
-
中國(guó)緊盯貿(mào)易協(xié)議,“若誰(shuí)聯(lián)美抗中,必遭反制”
-
“美國(guó)人自豪感急劇下降,特別是民主黨人”
-
“富士康要求中國(guó)員工從印度撤離”
-