-
專(zhuān)訪(fǎng)中科院自動(dòng)化所所長(zhǎng)徐波:構(gòu)建紫東太初——全球首個(gè)三模態(tài)大模型,類(lèi)人智能的大門(mén)正在打開(kāi)
最后更新: 2021-07-20 11:17:35觀察者網(wǎng):能不能具體講一下紫東太初這個(gè)多模態(tài)大模型以音聲圖、以圖生音的應(yīng)用案例?
徐波:以圖生音為例。可以不經(jīng)過(guò)文本,直接在一個(gè)共通語(yǔ)義空間做轉(zhuǎn)換,就是語(yǔ)義到語(yǔ)音的直接合成。以音生圖,它不是先識(shí)別語(yǔ)音,再做文本的檢索,而是直接在一個(gè)語(yǔ)義空間里面把這個(gè)聲音轉(zhuǎn)換成圖像。所以我們?yōu)槭裁凑f(shuō)這個(gè)是通用人工智能路徑的探索,就是通過(guò)圖文音三個(gè)模態(tài)固化出一個(gè)人類(lèi)非常模糊但是非常有用,只是不知道人類(lèi)大腦是怎么表達(dá)的一個(gè)語(yǔ)義空間的表征。
除此之外,我們還可以給出一個(gè)多模態(tài)大模型的互動(dòng)演示,涉及到很多的語(yǔ)音識(shí)別,語(yǔ)音合成,包括對(duì)圖像的描述,中文的續(xù)寫(xiě)等等,通過(guò)語(yǔ)義空間直接的轉(zhuǎn)換來(lái)完成。
這一系列的展示,是非常類(lèi)人的多模態(tài)交互。它可以任意輸入語(yǔ)音、圖像或者文字,去輸出語(yǔ)音,圖像和文字的任意一種,真正實(shí)現(xiàn)三個(gè)模態(tài)之間的關(guān)聯(lián)跟協(xié)同。它們中間就是我們講的“統(tǒng)一的語(yǔ)義空間”。
這里主要表達(dá)三個(gè)觀點(diǎn),一是大數(shù)據(jù)+大模型+多模態(tài),將改變當(dāng)前單一模型與單一任務(wù)人工智能的研發(fā)模式,多模態(tài)大模型將成為不同領(lǐng)域的共性平臺(tái)技術(shù)。
其次,在目前的研究當(dāng)中,有一種慣性思維是做人工智能都要用大數(shù)據(jù),而當(dāng)知識(shí)與數(shù)據(jù)混合驅(qū)動(dòng),增強(qiáng)模型的可信、可理解能力后,我相信隨著這些技術(shù)的發(fā)展,人工智能學(xué)習(xí)對(duì)有標(biāo)注的數(shù)據(jù)的依賴(lài)性會(huì)越來(lái)越小。
此外,國(guó)產(chǎn)化通用人工智能具有很高的技術(shù)門(mén)檻,需要大量的資金與數(shù)據(jù)的支撐,將使得人工智能的研究規(guī)則發(fā)生重大變革,對(duì)我國(guó)實(shí)現(xiàn)人工智能領(lǐng)域科技創(chuàng)新,占領(lǐng)核心技術(shù)高地具有重要戰(zhàn)略意義。以圖生音,以音生圖,效果甚至出乎我們自己的想象,這也帶給我們一項(xiàng)啟發(fā),讓我們對(duì)未來(lái)的人工智能又增加的無(wú)窮的想象力。
所以,多模態(tài)大模型人工智能值得我們進(jìn)一步去探索,值得我們進(jìn)一步探索更巧結(jié)構(gòu)、更大規(guī)模、更強(qiáng)理解能力的模型以及相應(yīng)的評(píng)估標(biāo)準(zhǔn),也值得我們把這樣的技術(shù)跟產(chǎn)業(yè)需求更好的結(jié)合起來(lái)。
再舉一些生活化的例子。比如說(shuō),利用大模型可以實(shí)現(xiàn)歐洲杯轉(zhuǎn)播的人工智能自動(dòng)解說(shuō);在影視拍攝領(lǐng)域,可以根據(jù)劇本的文字自動(dòng)生成畫(huà)面和場(chǎng)景,供導(dǎo)演再加工;在教育領(lǐng)域可以根據(jù)語(yǔ)義內(nèi)涵,自動(dòng)生成畫(huà)面和聲音、甚至生成全新的音樂(lè)(而非在既有樂(lè)庫(kù)中選?。?,類(lèi)似實(shí)現(xiàn)媽媽給孩子講故事等功能,讓人工智能具備初步的想象力和藝術(shù)創(chuàng)作力。其實(shí)這與人類(lèi)大腦工作機(jī)制是比較類(lèi)似的。
觀察者網(wǎng):紫東太初能夠快速面世,主要原因都有哪些?
徐波:這涉及到多方面的原因。
首先,主要得益于非常強(qiáng)大的基礎(chǔ)研究能力。通過(guò)多模態(tài)實(shí)現(xiàn)更加強(qiáng)大的人工智能一直是我們的夢(mèng)想。從去年開(kāi)始,在各研究團(tuán)隊(duì)單模態(tài)大模型取得階段性成果基礎(chǔ)上,我們組織所內(nèi)優(yōu)勢(shì)力量聯(lián)合投入開(kāi)始多模態(tài)攻關(guān);第二,我們以中國(guó)自主的昇騰人工智能基礎(chǔ)軟硬件平臺(tái)為基礎(chǔ),運(yùn)用包括昇騰芯片和全場(chǎng)景人工智能計(jì)算框架MindSpore來(lái)打造多模態(tài)通用人工智能平臺(tái),通過(guò)對(duì)外交流合作大大加速了這個(gè)過(guò)程。
目前平臺(tái)具備了三大關(guān)鍵技術(shù)(多模態(tài)理解與生成的多任務(wù)統(tǒng)一建模、面向國(guó)產(chǎn)化軟硬件的高效訓(xùn)練與部署、多模態(tài)預(yù)訓(xùn)練模型架構(gòu)設(shè)計(jì)與優(yōu)化),和六項(xiàng)核心能力(多模態(tài)統(tǒng)一表示與語(yǔ)義關(guān)聯(lián)、跨模態(tài)內(nèi)容轉(zhuǎn)化與生成、預(yù)訓(xùn)練模型網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)、標(biāo)注受限自監(jiān)督模型學(xué)習(xí)、模型適配與分布式訓(xùn)練、模型輕量化與推理加速)。
在這里,要糾正一個(gè)誤區(qū)。模型并不是越大越好,大模型出來(lái)以后怎么做輕量化和推理的加速,是攻關(guān)的重要方向之一。目前的圖文音三模態(tài)大模型,與單模態(tài)和圖-文兩模態(tài)相比,可以支撐全場(chǎng)景的人工智能應(yīng)用,包括像視頻配音、語(yǔ)音播放、標(biāo)題摘要、海報(bào)制作、跨模態(tài)檢索、圖像生成等等。
此外,三模態(tài)大模型跟國(guó)產(chǎn)軟硬件的技術(shù)合作非常關(guān)鍵。未來(lái)人工智能將成為人類(lèi)社會(huì)的基礎(chǔ)設(shè)施,就像現(xiàn)在的水、電、煤一樣,必須實(shí)現(xiàn)此類(lèi)技術(shù)的自主可控。目前,國(guó)內(nèi)已經(jīng)具備全棧式基礎(chǔ)軟硬件條件能力,要做到“從可以用”到“很好用”的成熟生態(tài),需要多方一起合作。
觀察者網(wǎng):作為人工智能領(lǐng)域的國(guó)家隊(duì),中科院自動(dòng)化研究所多模態(tài)大模型是如何布局的?
徐波:中科院自動(dòng)化研究所以打造新時(shí)代智能科學(xué)與技術(shù)戰(zhàn)略科技力量作為己任,擁有模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室、復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室兩個(gè)人工智能研究平臺(tái)。依托這兩個(gè)國(guó)家級(jí)平臺(tái),已經(jīng)在機(jī)器學(xué)習(xí)、圖像與視頻、語(yǔ)音與語(yǔ)言、智能機(jī)器人、智慧醫(yī)療、社會(huì)計(jì)算等領(lǐng)域取得了豐富的研究成果,獲得多項(xiàng)國(guó)家級(jí)的獎(jiǎng)項(xiàng)。
我們一直在探索更強(qiáng)大的人工智能,通過(guò)多模態(tài)實(shí)現(xiàn)更加通用的人工智能是其中一條研究主線(xiàn)。通用智能不同于強(qiáng)人工智能,但它至少應(yīng)該適應(yīng)不同的環(huán)境和任務(wù)遷移。我們?cè)谝延姓Z(yǔ)音、圖像、視頻、文本等單模態(tài)研究基礎(chǔ)上,重點(diǎn)在多模態(tài)學(xué)習(xí)基礎(chǔ)理論、多模態(tài)語(yǔ)義統(tǒng)一表示、大規(guī)模訓(xùn)練平臺(tái)、多模態(tài)數(shù)據(jù)以及評(píng)估標(biāo)準(zhǔn)等方面進(jìn)行多團(tuán)隊(duì)聯(lián)合攻關(guān)。
同時(shí)我們不斷加強(qiáng)對(duì)外合作交流。我們通過(guò)跟華為昇騰以及武漢人工智能計(jì)算中心的合作,最終使多模態(tài)大模型得以問(wèn)世。通用人工智能之路需要不斷探索,而不是坐而論道。只有真正做出一些階段性成果才能對(duì)技術(shù)發(fā)展路線(xiàn)有更加清晰的認(rèn)識(shí),也能對(duì)未來(lái)人工智能的發(fā)展有更加清晰的認(rèn)知。
觀察者網(wǎng):你們?cè)谘芯慷嗄B(tài)大模型的時(shí)候有沒(méi)有考慮到AI的產(chǎn)業(yè)化和普惠性的問(wèn)題?
徐波:這個(gè)問(wèn)題仍然需要進(jìn)一步探討?,F(xiàn)在市場(chǎng)上有大量的音視頻處理需求,確實(shí)跟我們的多模態(tài)信息處理能力很契合?!白蠔|太初”剛剛誕生,在有些場(chǎng)景下已經(jīng)開(kāi)始使用。下一步,我們準(zhǔn)備繼續(xù)優(yōu)化這個(gè)平臺(tái),按照節(jié)奏規(guī)劃對(duì)外開(kāi)放。同時(shí),我們將把更多的精力聚焦在多模態(tài)大模型上面,把它做得更準(zhǔn)確,效率更高、能耗更低。這將為現(xiàn)在的人工智能研發(fā)模式和產(chǎn)學(xué)研轉(zhuǎn)化模式帶來(lái)巨大變化。
觀察者網(wǎng):最后一個(gè)問(wèn)題,為什么說(shuō)研究跨模態(tài)人工智能平臺(tái)是通用人工智能路徑的探索?
徐波:通用人工智能大家都比較關(guān)心,因?yàn)樗鼘?duì)現(xiàn)有的人工智能研發(fā)范式起顛覆性影響。但是,什么是通用人工智能?是不是就是強(qiáng)人工智能?是不是就是跟人一樣的人工智能?這些都還沒(méi)有特別明確的定義。但是業(yè)內(nèi)普遍認(rèn)為,通用人工智能要有一種“泛化能力”,一定要用較少的代價(jià)去完成多任務(wù)的遷移執(zhí)行。
通用人工智能一直是技術(shù)界的一個(gè)夢(mèng)想,不同的專(zhuān)家都在從不同的路徑去探索。有的人希望通過(guò)復(fù)制人腦或者受腦啟發(fā)去實(shí)現(xiàn)通用人工智能;DeepMind是希望通過(guò)進(jìn)化博弈的方法,最終走向通用人工智能;預(yù)訓(xùn)練大模型則是基于數(shù)據(jù)自監(jiān)督學(xué)習(xí)的智能探索。不同路徑解決的階段性問(wèn)題各有側(cè)重,但最終一定會(huì)融合。目前走在最前面的還是多模態(tài)大模型,“紫東太初”是最新的嘗試,尤其是語(yǔ)義空間的表征突破,會(huì)對(duì)人工智能實(shí)現(xiàn)通用化帶來(lái)非常大的變化。
無(wú)疑這扇大門(mén)正在打開(kāi)。
本文系觀察者網(wǎng)獨(dú)家稿件,文章內(nèi)容純屬作者個(gè)人觀點(diǎn),不代表平臺(tái)觀點(diǎn),未經(jīng)授權(quán),不得轉(zhuǎn)載,否則將追究法律責(zé)任。關(guān)注觀察者網(wǎng)微信guanchacn,每日閱讀趣味文章。
- 責(zé)任編輯: 張建鑫 
-
祥生、藍(lán)光、中駿、星河、宋都入股,五家房企聯(lián)手到底為什么?
2021-07-20 11:11 中國(guó)房市 -
大公司早報(bào) | 天鵝到家暫停赴美IPO 喜茶回應(yīng)收購(gòu)樂(lè)樂(lè)茶
2021-07-20 09:09 大公司 -
傳保利與平安洽談收購(gòu)北大資源,標(biāo)的公司2020年預(yù)虧近17億元
2021-07-19 17:23 中國(guó)房市 -
郭廣昌繼續(xù)重倉(cāng)海南,400億欲將海航收入囊中?
2021-07-19 17:21 中國(guó)房市 -
Steam掌機(jī)公布,手持游戲電腦的春天要來(lái)了?
2021-07-19 17:18 文化 -
侯毅官宣成立盒馬NB事業(yè)部,盒馬鄰里為核心產(chǎn)品
2021-07-19 15:30 大公司 -
辛巴燕窩門(mén)事件終裁:辛巴勝訴
2021-07-19 14:01 消費(fèi) -
躺在小米渠道上的趣睡科技能一直贏下去嗎?
2021-07-19 12:54 上市公司 -
?投融資周報(bào) | 興盛優(yōu)選將完成3億美元融資 喜茶交割5億美元融資
2021-07-19 11:08 大公司 -
大公司早報(bào) | 美團(tuán)上線(xiàn)打車(chē)小程序 滴滴稱(chēng)停止服務(wù)為謠言
2021-07-19 10:10 大公司 -
vivo S10系列發(fā)布 引領(lǐng)“自然美”自拍潮流
2021-07-17 12:03 大公司 -
海南樓事:除了旅游就是買(mǎi)房?業(yè)內(nèi)回應(yīng)不怕跌價(jià)就怕跳漲
2021-07-16 14:37 中國(guó)房市 -
海南樓事:投資客瘋搶空置率奇高,有項(xiàng)目淡季入住率僅10%
2021-07-16 14:35 中國(guó)房市 -
架構(gòu)調(diào)整后俞永福首亮相,高德“聚合”屬性凸顯
2021-07-16 11:11 -
-
不止電商、教育,野心勃勃的字節(jié)又看上了外賣(mài)
2021-07-15 23:49 商業(yè) -
騰訊的“壟斷”:資本留不住用戶(hù),也就救不了游戲
2021-07-15 17:06 反壟斷 -
-
外媒:阿里和騰訊考慮互相開(kāi)放生態(tài)系統(tǒng)
2021-07-14 20:43 大公司 -
一季度“爆雷”毛利承壓,順豐上半年盈利下滑八成
2021-07-14 15:23 大公司
相關(guān)推薦 -
“聽(tīng)到東方驚雷了嗎?那是14億中國(guó)人在笑話(huà)美國(guó)” 評(píng)論 124美國(guó)解除對(duì)華C919發(fā)動(dòng)機(jī)出口禁令 評(píng)論 375“沒(méi)客戶(hù)!”獲47億補(bǔ)貼后,三星在美芯片廠推遲投產(chǎn) 評(píng)論 86“美國(guó)已解除這項(xiàng)對(duì)華出口禁令” 評(píng)論 279最新聞 Hot
-
“聽(tīng)到東方驚雷了嗎?那是14億中國(guó)人在笑話(huà)美國(guó)”
-
“以色列和俄羅斯正進(jìn)行秘密會(huì)談”
-
“不同于西方,中國(guó)正建設(shè)由技術(shù)驅(qū)動(dòng)的福利模式”
-
中國(guó)駐泰國(guó)大使館:被騙至緬甸的男模特已獲救
-
“越南在走鋼絲,稍有不慎,就會(huì)惹惱中國(guó)”
-
最新民調(diào):4成支持馬斯克成立新政黨
-
美伊下周在挪威談?
-
“俄美有興趣共同實(shí)施經(jīng)濟(jì)領(lǐng)域一些‘有前景的項(xiàng)目’,特別是能源”
-
人才引進(jìn)被舉報(bào)中止1年后,再招考入圍名單與此前一致?包頭通報(bào)
-
特朗普威脅:周五,接關(guān)稅吧
-
“歐洲領(lǐng)導(dǎo)人向我求助,我提了建議”
-
“我簽署時(shí)候,B-2、F-22將從頭頂飛過(guò)”
-
天文學(xué)家發(fā)現(xiàn)第三個(gè)進(jìn)入太陽(yáng)系的“星際訪(fǎng)客”
-
馮德萊恩承認(rèn):來(lái)不及談成,退而求其次…
-
特朗普簽署行政令:外國(guó)游客得加錢(qián)
-
美國(guó)解除對(duì)華C919發(fā)動(dòng)機(jī)出口禁令
快訊- 2.5萬(wàn)件中央救災(zāi)物資調(diào)撥至川甘遼三省
- 美將向不同國(guó)家告知征收的新關(guān)稅,中方回應(yīng)
- 美重啟向中國(guó)出口噴氣式發(fā)動(dòng)機(jī)?中方回應(yīng)
- 觀察者網(wǎng)與巴西247新聞網(wǎng)發(fā)起“全球南方傳媒聯(lián)合體”倡議
- 雷軍:169元的紙巾盒是車(chē)規(guī)級(jí)的,在降成本
- 艾睿鉑:五年后,中國(guó)有11%的新能源汽車(chē)品牌財(cái)務(wù)健康
- 15位電話(huà)號(hào)碼要來(lái)了
- 兩月齡嬰兒窒息死亡,檢察院:生父涉嫌“過(guò)失致人死亡”
-