-
多模態(tài)GPT-4被吹爆,但仍會(huì)“一本正經(jīng)胡說八道”
最后更新: 2023-03-15 15:11:15(文/賀喜格 編輯/呂棟)
今年初以來,以AI大模型GPT3.5為基礎(chǔ)的聊天機(jī)器人ChatGPT引發(fā)大量關(guān)注,股市上相關(guān)概念遭到熱炒。正當(dāng)ChatGPT的熱度有所下降時(shí),微軟投資的OpenAI又推出了GPT-4,號(hào)稱功能比GPT3.5更強(qiáng)大。
北京時(shí)間3月15日凌晨,OpenAI正式發(fā)布大型多模態(tài)模型GPT-4。據(jù)介紹,與ChatGPT只能接收文字不同,GPT-4能接收?qǐng)D像和文本輸入來輸出文本內(nèi)容;擴(kuò)寫能力得到增強(qiáng),能處理超過2.5萬個(gè)單詞的文本;更具創(chuàng)造力,回答準(zhǔn)確性顯著提高;能夠生成歌詞、創(chuàng)意文本,實(shí)現(xiàn)風(fēng)格變化;并且能夠處理更細(xì)微的指令。
“這是我們迄今為止功能最強(qiáng)大的模型!”O(jiān)penAI的高管和工程師在介紹視頻里直言:“GPT-4是世界第一款高體驗(yàn)、強(qiáng)能力的先進(jìn)AI系統(tǒng),我們希望很快把它推向所有人?!?
新的大模型一經(jīng)發(fā)布,便受到網(wǎng)友們的熱捧。但仍然值得的一提的是,雖然GPT-4的功能進(jìn)一步增強(qiáng),但仍然不完全可靠。OpenAI坦言,GPT-4仍然會(huì)產(chǎn)生幻覺、生成錯(cuò)誤答案,并出現(xiàn)推理錯(cuò)誤。
自去年11月推出以來,ChatGPT已經(jīng)能夠根據(jù)用戶提示生成原創(chuàng)文章、故事和歌詞,但它也引發(fā)了一些擔(dān)憂。最近幾周,人工智能聊天機(jī)器人(包括來自微軟和谷歌的工具)因情緒反應(yīng)過激、犯事實(shí)錯(cuò)誤和完全“幻覺”而受到指責(zé)。
GPT-4文字輸入限制提升至2.5萬個(gè)單詞
專業(yè)場(chǎng)景中接近人類水平
開發(fā)GPT大模型的OpenAI稱,GPT-4能接受圖像和文本輸入,輸出文本內(nèi)容,雖然在許多現(xiàn)實(shí)場(chǎng)景中的能力不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測(cè)試中已做到人類水平的表現(xiàn)。
之前人們使用的ChatGPT只有處理文本的能力,GPT-4開始接受圖像作為輸入介質(zhì)。比如,給它展示一張圖片,問它手套掉下午會(huì)發(fā)生什么,很快會(huì)得到“它會(huì)掉到木板上,并且球會(huì)被彈飛”的回答。
OpenAI還用一張“梗圖”演示了GPT-4的新功能。用戶提問:解釋下圖的笑點(diǎn)是什么,并對(duì)圖片中的每部分進(jìn)行描述。GPT-4會(huì)分別對(duì)每張圖中的內(nèi)容進(jìn)行描述,并指出這幅圖把一個(gè)大而過時(shí)的VGA接口插入一個(gè)小而現(xiàn)代的智能手機(jī)充電端口,是荒謬的。
GPT-4也能簡(jiǎn)練指出圖片的違和之處。用戶提問:“這張圖片有什么不尋常之處”時(shí),GPT-4簡(jiǎn)練地回答出“一名男子正在行駛中的出租車車頂上使用熨衣板熨燙衣服”。
不僅是圖像理解,它還可以閱讀圖片形式的論文。通過幾張論文的圖片,GPT-4可以總結(jié)內(nèi)容,也可以對(duì)指定內(nèi)容展開解釋。
除了在文本輸入的基礎(chǔ)上進(jìn)一步接受了圖像輸入外,GPT-4還升級(jí)成為了一個(gè)“學(xué)霸”,基準(zhǔn)測(cè)試表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有模型。OpenAI表示,如果是隨意聊天,用戶可能不太能感受出GPT-3.5與GPT-4之間的區(qū)別。但當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí),GPT-4將明顯比GPT-3.5更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令?!霸谖覀兊膬?nèi)部評(píng)估中,它產(chǎn)生正確回應(yīng)的可能性比GPT-3.5高40%。”
根據(jù)測(cè)試,在“美國(guó)高考”SAT中,GPT-4的分?jǐn)?shù)增加了150分,現(xiàn)在能拿到1600分中的1410分。它還通過了模擬律師考試,且分?jǐn)?shù)在應(yīng)試者的前10%左右;相比之下,GPT-3.5的得分在倒數(shù)10%左右。
此外,GPT-4對(duì)于英語以外的語種支持也得到了大大的優(yōu)化。許多現(xiàn)有的機(jī)器學(xué)習(xí)基準(zhǔn)測(cè)試都是用英語編寫的。為了初步了解GPT-4在其他語言中的性能,OpenAI使用Azure Translate將MMLU基準(zhǔn)測(cè)試(一套涵蓋57個(gè)主題的14000個(gè)多項(xiàng)選擇題)翻譯成各種語言。在測(cè)試的26種語言中,有24種語言,GPT-4優(yōu)于GPT-3.5和其他大語言模型的英語語言性能。
在API(應(yīng)用程序編程接口)方面,GPT-4還開放了一個(gè)使用功能,允許修改“系統(tǒng)提示”。之前ChatGPT的回答總是冗長(zhǎng)而平淡,這是因?yàn)橄到y(tǒng)提示中規(guī)定了“你只是一個(gè)語言模型……你的知識(shí)截止于2021年9月”?,F(xiàn)在通過修改這句話,GPT-4就可以展現(xiàn)出更多樣的性格,比如扮演蘇格拉底。
OpenAI請(qǐng)GPT-4模型以蘇格拉底風(fēng)格教學(xué),絕對(duì)不能給學(xué)生答案;相反地,還要不斷提出好問題幫助學(xué)生思考。ChatGPT果真循循善誘,以提問代替直接回答。取自O(shè)penAI官網(wǎng)
仍然不完全可靠
在體驗(yàn)ChatGPT之時(shí),不少用戶會(huì)發(fā)現(xiàn)ChatGPT時(shí)不時(shí)會(huì)“一本正經(jīng)地胡說八道”,而GPT-4盡管號(hào)稱功能更全面,但會(huì)出現(xiàn)幻覺、胡說八道的毛病還是沒能完全改掉。
OpenAI介紹,盡管功能已經(jīng)非常強(qiáng)大,但GPT-4仍與早期的GPT模型具有相似的局限性,其中最重要的一點(diǎn)是它仍然不完全可靠。GPT-4仍然會(huì)生成錯(cuò)誤答案,并出現(xiàn)推理錯(cuò)誤。
也就說,在GPT-4身上依然可以看到之前版本“一本正經(jīng)地胡說八道”的情形。OpenAI強(qiáng)調(diào),仍然推薦在使用它的時(shí)候要附加諸如人工審查、或者附加上下文,甚至在高風(fēng)險(xiǎn)情境中,要避免使用它。
不過OpenAI也提到,該系統(tǒng)已經(jīng)接受了六個(gè)月的安全培訓(xùn),在內(nèi)部對(duì)抗性真實(shí)性評(píng)估中,GPT-4的得分比最新的GPT-3.5高:“響應(yīng)不允許內(nèi)容的請(qǐng)求的可能性降低了82%,產(chǎn)生真實(shí)事實(shí)的可能性提高了40%,優(yōu)于GPT-3.5?!?
網(wǎng)傳GPT-3和GPT-4參數(shù)對(duì)比圖,但此次OpenAI沒有給出GPT-4參數(shù)量
“它仍然存在缺陷,仍然有限,但它有明顯的改進(jìn)。它比以前的模型更有創(chuàng)意,它的幻覺明顯減少,而且它的偏見也更少?!監(jiān)penAI公司CEO奧特曼在Twitter上稱,GPT-4是其模型“最有能力且最符合”人類價(jià)值觀和意圖的模型。
這也意味著,相較之前的模型來說,GPT-4雖然仍可能“一本正經(jīng)地胡說八道”,但頻率有所減小。
不過頻率的減小還是不能讓人們放松警惕。在GPT-4發(fā)布后,微軟營(yíng)銷主管表示,“如果你在過去六周內(nèi)的任何時(shí)候使用過新的Bing預(yù)覽版,你就已經(jīng)提前了解了OpenAI最新模型的強(qiáng)大功能。”
這似乎可以理解為,微軟的新必應(yīng)早就已經(jīng)用上了GPT-4。而結(jié)合前段時(shí)間對(duì)新必應(yīng)的爭(zhēng)議來看,已經(jīng)用上了GPT-4的新必應(yīng)還是出現(xiàn)了不少“發(fā)瘋”行為。
此外,與前一代一樣,GPT-4是基于2021年9月之前的數(shù)據(jù)訓(xùn)練的,所以GPT-4對(duì)于2021年9月之后發(fā)生的事件仍然缺乏有效理解,也不會(huì)從其經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)。OpenAI表示:“GPT-4仍有許多已知的局限性,我們正在努力解決,例如社會(huì)偏見、幻覺和對(duì)抗性提示?!?
本文系觀察者網(wǎng)獨(dú)家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
標(biāo)簽 ChatGPT- 責(zé)任編輯: 賀喜格 
-
“不后悔向小布什扔鞋,仍對(duì)美國(guó)感到憤怒”
2023-03-15 14:32 -
毛利率超資生堂!毛戈平每賺100元對(duì)應(yīng)產(chǎn)品成本不到19元
2023-03-15 14:29 觀網(wǎng)財(cái)經(jīng)-金融 -
?保銀行還是抗通脹?美聯(lián)儲(chǔ)陷入兩難
2023-03-15 14:25 觀網(wǎng)財(cái)經(jīng)-宏觀 -
?提前跑路?硅谷銀行高管被爆套現(xiàn)8400萬美元
2023-03-15 14:19 觀網(wǎng)財(cái)經(jīng)-金融 -
一未成年人直播打賞逾百萬元,消保委介入后平臺(tái)全額退回
2023-03-15 13:13 觀網(wǎng)財(cái)經(jīng)-消費(fèi) -
網(wǎng)紅餐廳藍(lán)蛙后廚亂象:過期蔬果繼續(xù)用、有效期標(biāo)簽隨意換…
2023-03-15 11:57 -
兩年后在制程上反超臺(tái)積電、三星,英特爾能做到嗎?
2023-03-15 11:36 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
-
-
全國(guó)高中“C9聯(lián)盟”成立:不針對(duì)第三方
2023-03-14 21:43 -
-
新華社受權(quán)播發(fā)《政府工作報(bào)告》
2023-03-14 19:11 觀網(wǎng)財(cái)經(jīng)-宏觀 -
?美國(guó)銀行危機(jī),日本股市挨最狠的打
2023-03-14 19:03 觀網(wǎng)財(cái)經(jīng)-金融 -
危機(jī)加深?百年投行瑞士信貸自曝“重大缺陷”
2023-03-14 18:07 觀網(wǎng)財(cái)經(jīng)-海外 -
江蘇將舉辦大基金二期投資對(duì)接會(huì)
2023-03-14 17:02 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
銀行危機(jī)時(shí)刻,瑞信自曝過去兩年財(cái)報(bào)程序有“重大缺陷”
2023-03-14 16:59 -
-
-
“凌晨五點(diǎn)半,我把錢轉(zhuǎn)出來了!”
2023-03-14 13:46 觀網(wǎng)財(cái)經(jīng)-海外
相關(guān)推薦 -
“不如申請(qǐng)成中國(guó)一省” ,德國(guó)鋰企竟如此激將歐盟 評(píng)論 29美兩員“大將”施壓未果,日本反倒成了“難啃的骨頭” 評(píng)論 82美國(guó)放風(fēng):伊朗有動(dòng)作了 評(píng)論 84靠萬斯“決勝一票”,“大而美”法案驚險(xiǎn)闖關(guān)參議院 評(píng)論 182電氣化已落后亞洲,“大而美”法案或令美國(guó)雪上加霜 評(píng)論 77最新聞 Hot
-
“7年前就發(fā)現(xiàn)問題了,一直沒修”
-
“不如申請(qǐng)成中國(guó)一省” ,德國(guó)鋰企竟如此激將歐盟
-
終于換了,特朗普:我很滿意
-
要跟中國(guó)對(duì)著干?“剛果(金),別斷送發(fā)展機(jī)遇”
-
美兩員“大將”施壓未果,日本反倒成了“難啃的骨頭”
-
白宮找補(bǔ):美國(guó)很強(qiáng),不信去問伊朗
-
何君堯:建議給皇后大道、維多利亞公園改名
-
“美國(guó)自毀長(zhǎng)城,中企憑高性價(jià)比一路高歌猛進(jìn)”
-
兩國(guó)矛盾激化,阿媒突然發(fā)文:收到匿名材料,是俄軍擊中的
-
裝不裝空調(diào),法國(guó)政客都能吵起來
-
潛入醫(yī)院裝電詐設(shè)備,騙走30萬!今年已發(fā)生多起
-
美報(bào)告炒作:中企占比近10%,“五角大樓供應(yīng)鏈極其脆弱”
-
“歐洲定居者對(duì)澳大利亞原住民,犯下種族滅絕罪”
-
好一個(gè)“舉賢不避親”,特朗普推薦兒媳參選
-
開庭前妻子墜樓身亡,柯文哲前副手痛哭:臺(tái)灣怎么變成這樣
-
美國(guó)放風(fēng):伊朗有動(dòng)作了
快訊- 蘇州通報(bào):宋某,不得錄用為公務(wù)員、罰款74692元
- 停牌風(fēng)波后瀾滄古茶補(bǔ)交“答卷”:2024年虧損逾3億元
- 歐洲理事會(huì)主席科斯塔會(huì)見王毅
- 莆田一小學(xué)回應(yīng)受資助貧困生家中裝修豪華:是舅舅家
- 奧巴馬積極創(chuàng)立VS特朗普持續(xù)“阻擊”:美國(guó)國(guó)家旅游局 “生存戰(zhàn)”再升級(jí)
- 公安部通報(bào):陳某為吸粉引流編造“工行假金條”,已被依法追責(zé)
- 訂單轉(zhuǎn)向中芯國(guó)際,臺(tái)灣聯(lián)電要搞6nm?
- 中日貨運(yùn)“主干道”迎變局, 兩大日航合并案獲中國(guó)“有條件”放行
-