-
OpenAI新推理模型價格驟降,總體性價比未能超越DeepSeek R1
最后更新: 2025-02-06 18:10:09當(dāng)?shù)貢r間1月31日,美國OpenAI公司正式上線推理模型o3-mini,并首次向免費(fèi)用戶開放推理模型,一同亮相的還有“滿血版”的o3模型。
來源:OpenAI
OpenAI表示,o3具備更先進(jìn)、近似人類的推理能力,在解決編程、數(shù)學(xué)、科學(xué)等理工科問題方面均超越現(xiàn)役的o1模型。該公司曾表示,o3-mini會在1月底先上架,o3則“會在不久之后推出”。
根據(jù)介紹,o3-mini支持開發(fā)者調(diào)整“AI推理努力程度”的選項(xiàng)——分為低、中、高三個級別。這種靈活性使得o3-mini可以在面對難題時“更努力思考”,而需要效率時優(yōu)先考慮回應(yīng)速度。開發(fā)者可根據(jù)需求選擇推理強(qiáng)度,平衡思考深度和響應(yīng)速度,但不支持視覺任務(wù),視覺推理仍需使用o1。
在新聞稿中,OpenAI披露,在2024年美國數(shù)學(xué)邀請賽(AIME 2024)的測試中,低推理努力的o3-mini準(zhǔn)確率(60%)與o1-mini差不多,但速率更快;而在中等努力下,o3-mini準(zhǔn)確率能夠提升到79.6%,與o1模型相當(dāng)。在最高努力水平時,o3-mini的準(zhǔn)確率則能進(jìn)一步提升至87.3%。
在博士級科學(xué)問題(GPQA Diamond)方面,三種努力程度模型的準(zhǔn)確率分別為70.6%、76.8%和79.7%,該測試主要用于衡量模型在博士級別物理、生物和化學(xué)問題上的表現(xiàn)。
有外媒還將o3-mini和DeepSeek的R1模型進(jìn)行了對比。
在AIME 2024測試中,o3-mini僅在高推理強(qiáng)度下表現(xiàn)優(yōu)于R1(79.8%)。在以編程為重點(diǎn)的SWE-bench Verified基準(zhǔn)測試中,o3-mini同樣僅在高推理強(qiáng)度下以微弱優(yōu)勢(0.1 分)領(lǐng)先R1。在低推理強(qiáng)度下,o3-mini在GPQA Diamond基準(zhǔn)測試中落后于R1(71.5%)。
OpenAI宣布,從當(dāng)天開始,免費(fèi)ChatGPT用戶也能通過在編輯器中選擇“推理”來嘗試o3-mini模型,這也是公司的推理模型首次向免費(fèi)用戶開放。
對于付費(fèi)用戶,o3-mini將在模型選擇器中替代o1-mini。作為升級的一部分,每月花費(fèi)20美元左右的ChatGPT Plus和Team用戶,速率限制也從o1-mini的每天50條,提升到o3-mini的150條。每月支付200美元的ChatGPT Pro用戶,能無限制地訪問o3-mini。
近期,爆火的DeepSeek-R1模型對OpenAI構(gòu)成了競爭壓力,尤其在成本方面呈現(xiàn)出顯著差異。
OpenAI 的推理模型o1系列相對成本較高,o1模型的API定價為每百萬輸入tokens 15美元,每百萬輸出tokens 60美元,而DeepSeek R1的API定價為每百萬輸入tokens 0.14美元(緩存命中)/0.55美元(緩存未命中),每百萬輸出tokens 2.19美元。
這次發(fā)布中,OpenAI強(qiáng)調(diào)了成本問題。與OpenAI的o1-mini相比,o3-mini的價格降低了63%。o3-mini定價為每百萬輸入tokens 1.10美元,每百萬輸出tokens 4.40美元,。不過,相比DeepSeek-R1,o3-mini的價格依然高出了不少。
o3-mini與DeepSeek-R1價格對比
安全方面,OpenAI表示,在訓(xùn)練o3-mini以實(shí)現(xiàn)安全響應(yīng)的過程中,采用了一種關(guān)鍵技術(shù)--“深思熟慮的對齊(deliberative alignment)”。
通過這種方法,OpenAI訓(xùn)練模型在回答用戶提示之前,先對人類編寫的安全規(guī)范進(jìn)行推理。可以理解為,OpenAI希望確保o3-mini生成的內(nèi)容更加安全、符合道德,并降低了模型生成不良或有害響應(yīng)的風(fēng)險。
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 林鈴錦 
-
高通CEO:DeepSeek R1對高通有利
2025-02-06 17:57 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
華為小藝、聯(lián)想小天等接入DeepSeek
2025-02-06 14:14 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
變現(xiàn)困難還面臨跨賽道競爭,All in AI能幫Keep減虧嗎?
2025-02-06 13:23 大公司 -
全球頂尖AI科學(xué)家、前Salesforce副總裁加入阿里
2025-02-06 11:59 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
-
螞蟻集團(tuán)官宣新任CFO
2025-02-06 11:20 觀網(wǎng)財(cái)經(jīng)-金融 -
蘋果跌了,這一消息是導(dǎo)火索?
2025-02-06 06:39 -
價格崩塌后,默沙東對華停供四價HPV疫苗
2025-02-05 19:48 產(chǎn)業(yè)萬象 -
-
春節(jié)跨境游訂單增三成,日本成最熱目的地
2025-02-05 16:19 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
“酒系銀行”宜賓銀行3.5%股權(quán)流拍,20倍市盈率嚇退買家
2025-02-05 16:09 觀網(wǎng)財(cái)經(jīng)-金融 -
-
-
美國知名測評:繼DeepSeek后,通義千問也追上OpenAI
2025-02-05 15:18 人工智能 -
美國郵政暫停接收來自中國內(nèi)地和香港的入境包裹
2025-02-05 14:44 觀網(wǎng)財(cái)經(jīng)-海外 -
華為董事長:去年?duì)I收超8600億
2025-02-05 14:03 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
中國七大云廠商集中上線DeepSeek
2025-02-05 11:28 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
A股deepseek概念掀漲停潮,機(jī)器人板塊走強(qiáng)
2025-02-05 10:56 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
“硅谷有種常見病,認(rèn)為圈外所有創(chuàng)新都是作弊得來的”
2025-02-02 21:01 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
華為和DeepSeek聯(lián)手,硅基流動首發(fā)被擠爆
2025-02-01 18:23 觀網(wǎng)財(cái)經(jīng)-科創(chuàng)
相關(guān)推薦 -
最新聞 Hot
-
好一個“舉賢不避親”,特朗普推薦兒媳參選
-
開庭前妻子墜樓身亡,柯文哲前副手痛哭:臺灣怎么變成這樣
-
美國放風(fēng):伊朗有動作了
-
“中方正考慮邀請李在明出席”
-
“中國洋垃圾禁令震動全球”,馬來西亞也跟了
-
靠萬斯“決勝一票”,“大而美”法案驚險闖關(guān)參議院
-
白宮官員:沒人在乎馬斯克說了什么
-
日澳印各懷心事,魯比奧還想著中國:別談了,得干實(shí)事,搞礦!
-
三年來首次,普京與馬克龍通話
-
“我會給日本寫信感謝他們,給他們加關(guān)稅”
-
特朗普:奧巴馬糟糕小布什低分,拜登史上最差,而我…
-
美財(cái)長:中國加快稀土出口吧,回到過去
-
“《新華字典》例句稱小孩是累贅”再引爭議,多方回應(yīng)
-
英國樂隊(duì)在音樂節(jié)上高喊“以軍去死”,英美都“炸”了
-
多地宣布“解禁”中華田園犬
-
內(nèi)塔尼亞胡證實(shí)下周訪美,除了特朗普還要見他們
快訊- 國臺辦:“為臺澎金馬而戰(zhàn)”?賴清德不惜將無辜民眾綁上“臺獨(dú)”戰(zhàn)車
- 旅客自棄的充電寶如何處理?國際航班要查嗎?上海機(jī)場集團(tuán)回應(yīng)
- 谷歌因?yàn)E用安卓手機(jī)數(shù)據(jù)被判賠22億
- “中方正考慮邀請李在明出席”
- 以“高志凱線”為中印邊界?高志凱回應(yīng)
- 秦始皇遣使采藥昆侖石刻陷爭議,首次提出者回應(yīng)
- 京津冀一周觀察 | 北京昌平救援驢友將追繳費(fèi)用;河北生育津貼直發(fā)給個人
- 讓優(yōu)質(zhì)內(nèi)容發(fā)光,抖音全面升級生活垂類創(chuàng)作者扶持計(jì)劃
-