-
專訪數(shù)庫創(chuàng)始人:通用大模型發(fā)展到極致,還有漫長的過程
-
呂棟lvdong@guancha.cn
最后更新: 2024-05-08 22:46:59【文/觀察者網(wǎng) 呂棟】
“我們現(xiàn)在主要在使用OpenAI的模型,同時我們也測試了一系列國內(nèi)的大模型,他們的進(jìn)步都很快,但目前來看,在成熟度上還可以進(jìn)一步提高。”7月7日,數(shù)庫科技創(chuàng)始人兼總裁沈鑫在第六屆世界人工智能大會(WAIC)現(xiàn)場接受觀察者網(wǎng)對話時說道。
他認(rèn)為,如果通用大模型發(fā)展到極致的話,也就不存在什么行業(yè)大模型了,但這是非常漫長的過程。因為能真正供大模型使用的高質(zhì)量數(shù)據(jù)非常缺乏。比如能把金融相關(guān)數(shù)據(jù)標(biāo)準(zhǔn)做到很高的公司屈指可數(shù),而這些公司肯定不會把數(shù)據(jù)貢獻(xiàn)給別人。
數(shù)庫科技創(chuàng)始人兼總裁沈鑫
沈鑫向觀察者網(wǎng)坦言,今天人類所處的是一個萬物互聯(lián)的世界,所有的產(chǎn)業(yè)是連接在一起的。以前可能分析芯片的和分析汽車的人士很少產(chǎn)生交集,但今天產(chǎn)業(yè)網(wǎng)絡(luò)是交織狀的,對人的分析能力要求非常高。在這種情況下,數(shù)據(jù)的連接和編織,對幫助人們做決策顯得尤為重要。
他同時也提到,這個世界不存在所謂的“魔術(shù)”,大模型也不會一下把所有問題都解決。因為大模型本身是一個效率工具,“我們現(xiàn)在會把大模型的一些技術(shù)融入到數(shù)據(jù)生產(chǎn)端,進(jìn)一步去提升生產(chǎn)效率。這個實際上是我們看待大模型的一個點,不要為了技術(shù)而技術(shù)”。
數(shù)庫科技成立于2009年,由海歸的沈鑫和劉彥海創(chuàng)立,該公司主要是在金融及產(chǎn)業(yè)領(lǐng)域提供基于產(chǎn)業(yè)邏輯的智能數(shù)據(jù)產(chǎn)品與系統(tǒng)服務(wù),幫助金融機構(gòu)、企業(yè)集團(tuán)、政府部門解決業(yè)務(wù)場景中的數(shù)據(jù)和系統(tǒng)需求。
在本屆WAIC現(xiàn)場,觀察者網(wǎng)體驗了數(shù)庫科技發(fā)布的概念型產(chǎn)品圖譜——istari,用戶輸入問題用大語言模型解析后,即可轉(zhuǎn)化成統(tǒng)一產(chǎn)品知識圖譜(UPG)相關(guān)的查詢,呈現(xiàn)出相關(guān)的專業(yè)產(chǎn)業(yè)知識以及各個知識點之間的關(guān)系,該產(chǎn)品主要通過大模型來做產(chǎn)業(yè)關(guān)系的推演。
以下是對話實錄:
觀察者網(wǎng):今年數(shù)庫的展臺比去年要大,重點在展示哪些內(nèi)容?
沈鑫:相比去年,今年展出的內(nèi)容更多是增強和產(chǎn)品化。比如說銀行對公,去年是方案,今年是標(biāo)準(zhǔn)化產(chǎn)品。因為隨著時間推移,公司想要發(fā)展的話,產(chǎn)品化程度必須越來越高。目前數(shù)字化轉(zhuǎn)型大家還都在摸索,隨著接觸的客戶越來越多,我們要把其中共性的需求提取出來。因為我們的目標(biāo)并不是只服務(wù)于頭部金融機構(gòu),還要服務(wù)于數(shù)量眾多的中小銀行,他們可能沒有那么多資源和能力,在這種情況下,標(biāo)準(zhǔn)化產(chǎn)品對他們來說就很重要。而且他們在體會到標(biāo)準(zhǔn)化產(chǎn)品的好處之后,才更有決心和信心投入更多成本去做的更加精細(xì)。
觀察者網(wǎng):連續(xù)參展世界人工智能大會,數(shù)庫業(yè)務(wù)是怎么跟人工智能技術(shù)結(jié)合的?
沈鑫:技術(shù)永遠(yuǎn)是工具,所以數(shù)庫將大量人工智能技術(shù)用在數(shù)據(jù)生產(chǎn)、數(shù)據(jù)解析和數(shù)據(jù)編織三個層面。技術(shù)賦能是底層能力,我們從來不直接拿技術(shù)去變現(xiàn),這種級別的炫技沒有意義。一個公司要想可持續(xù)發(fā)展,關(guān)鍵是要夯實底層能力。就像運動員一樣,平時做的最多的反而是體能訓(xùn)練,雖然最后真實發(fā)揮的水平跟心態(tài)也有關(guān),但底層能力還是最核心的。
觀察者網(wǎng):數(shù)庫現(xiàn)在利用的人工智能底層技術(shù)能力有哪些?
沈鑫:我們在分析和解析不同類型數(shù)據(jù)時,會用到各種各樣的小模型,比如說NLP(自然語言處理)等。我們以前不做需要海量人工標(biāo)注的數(shù)據(jù)集,因為這會降低毛利率。但今天通過大模型,我們可以做海量數(shù)據(jù)標(biāo)注,具體是先通過小模型把大的段落拆成小的,再用大模型把關(guān)鍵要素提取出來。通過把工程化的技術(shù)整合到一起,再把數(shù)據(jù)工廠做進(jìn)一步的增強。
觀察者網(wǎng):目前數(shù)庫所利用的模型能力,是自研模型,還是使用市場上的模型?
沈鑫:我們不會自己去做大模型,因為大模型是一個長期投入才能出效果的技術(shù),適合大廠來做,而且大模型也有現(xiàn)成的。數(shù)庫現(xiàn)在也在接入OpenAI,國內(nèi)的大模型像百度的文心我們也在測試。我們在垂直領(lǐng)域中用好工具就行了,而且可以誰的大模型好用就用誰的。我們更專注垂直領(lǐng)域,包括金融機構(gòu)也不可能自己去研發(fā)大模型,也是用現(xiàn)成的。因此我們一方面要把市場上大模型的水平認(rèn)知清楚,另一方面我們要把客戶需要的東西兼容上去。
觀察者網(wǎng):目前數(shù)庫主要在和市場上哪些大模型合作?
沈鑫:我們現(xiàn)在主要在使用OpenAI的模型,同時我們也測試了一系列國內(nèi)的大模型,他們的進(jìn)步都很快,但目前來看,在成熟度上還可以進(jìn)一步提高。
觀察者網(wǎng):如何看待大模型的應(yīng)用?
沈鑫:這個世界不存在所謂的“魔術(shù)”,大模型也不可能一下把所有問題都解決。因為大模型本身是一個效率工具,我們現(xiàn)在會把大模型的一些技術(shù)融入到數(shù)據(jù)生產(chǎn)端,進(jìn)一步去提升生產(chǎn)效率。這個實際上是我們看待大模型的一個點,不要為了技術(shù)而技術(shù)。
觀察者網(wǎng):如何看待通用大模型和行業(yè)大模型之間的應(yīng)用場景沖突?
沈鑫:如果通用大模型發(fā)展到極致的話,我覺得也就不存在什么行業(yè)大模型,但這是非常漫長的過程。能夠真正供大模型使用的高質(zhì)量數(shù)據(jù)是非常缺乏的。
比如我們行業(yè)里,能把金融相關(guān)數(shù)據(jù)標(biāo)準(zhǔn)做到很高的公司,可能掰手指頭都數(shù)得出來,而這幾家肯定不會把數(shù)據(jù)貢獻(xiàn)給別人。所以它其實是一個漫長的過程,沒有大家想象得那么快。另外一個點,很多的場景是不需要用到大模型的。可能在咨詢服務(wù)類的場景中大模型有很大的用場,但是在金融這種對數(shù)據(jù)要求很嚴(yán)謹(jǐn)?shù)男袠I(yè)內(nèi),大模型實際是沒有意義的,因為回饋是相對比較模糊的。
觀察者網(wǎng):應(yīng)該怎樣理解數(shù)庫的業(yè)務(wù),或者說數(shù)庫是如何使用數(shù)據(jù)的?
沈鑫:我們是把市場上所有看上去像孤島的數(shù)據(jù)融合連接起來。在這樣的數(shù)據(jù)網(wǎng)絡(luò)中,去尋找外界難以捕捉到的一些有用的信息點。因為人的思維總是有限的,能力再強的專家,可能也只是在一兩個領(lǐng)域比較專業(yè),一旦跨領(lǐng)域可能就無能為力。今天我們所處的是一個萬物互聯(lián)的世界,所有的產(chǎn)業(yè)是連接在一起的。以前我們可能會說,分析芯片的和分析汽車的很少產(chǎn)生交集,但今天新能源汽車已經(jīng)離不開芯片,產(chǎn)業(yè)網(wǎng)絡(luò)是交織狀的,對人的分析能力要求非常高。在這種情況下,數(shù)據(jù)的連接和編織,對幫助人們做決策就顯得尤為重要。
觀察者網(wǎng):目前數(shù)庫研發(fā)人員的占比大概是什么情況?
沈鑫:我們現(xiàn)在有兩百多名員工,其中有一百多人在做研發(fā),占比超過一半,這些研發(fā)人員也在不斷夯實數(shù)庫的底層能力。當(dāng)?shù)讓蛹夹g(shù)能力達(dá)到一定水平的時候,你就會發(fā)現(xiàn)數(shù)據(jù)提取能力和數(shù)據(jù)精度全部都在上升。這就跟中國發(fā)射火箭探月一樣,航天技術(shù)一旦突破,所有的技術(shù)點在民用領(lǐng)域都會整體提升。
觀察者網(wǎng):數(shù)庫現(xiàn)在的營收大概是什么樣的水平,未來有沒有IPO的計劃?
沈鑫:我們的營收已經(jīng)破億了,去年業(yè)務(wù)體量翻了三倍,今年還要再翻一倍。我覺的無論是IPO也好,還是未來任何資本市場的出路也好,都取決于公司的基本面,也就是有沒有真正為客戶創(chuàng)造價值。
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權(quán),不得轉(zhuǎn)載。
- 責(zé)任編輯: 呂棟 
-
國際首次!“量子模擬的圣杯之一”,我國科學(xué)家取得重大進(jìn)展
2024-05-06 12:12 科技前沿 -
嫦娥六號成功發(fā)射!開啟人類首次月球背面取樣之旅
2024-05-03 17:19 航空航天 -
環(huán)環(huán)相扣、步步關(guān)鍵!嫦娥六號月背出差之旅日程表
2024-05-03 16:22 航空航天 -
今天上午太陽爆發(fā)強耀斑,對我國上空電離層產(chǎn)生影響
2024-05-03 14:09 天文 -
嫦娥六號任務(wù)首選窗口瞄準(zhǔn)今日17時27分發(fā)射
2024-05-03 07:39 航空航天 -
嫦娥六號計劃5月3日發(fā)射
2024-05-01 18:26 航空航天 -
準(zhǔn)備就緒!嫦娥六號完成發(fā)射前最后一次系統(tǒng)間全區(qū)合練
2024-05-01 15:52 航空航天 -
幣安創(chuàng)始人趙長鵬被判4個月監(jiān)禁
2024-05-01 10:10 瘋狂比特幣 -
中美研究合作:核聚變實驗實現(xiàn)兩方面關(guān)鍵技術(shù)突破
2024-04-30 07:33 科技前沿 -
全球運營商最大單體智算中心投產(chǎn):2萬張卡國產(chǎn)化率超85%
2024-04-28 15:14 觀網(wǎng)財經(jīng)-科創(chuàng) -
“5臺ASML極紫外光刻機就相當(dāng)于2022年歐盟對華葡萄酒出口總額”
2024-04-27 09:01 觀網(wǎng)財經(jīng)-海外 -
刷新紀(jì)錄!這一國產(chǎn)芯片交付
2024-04-26 09:13 科技前沿 -
?華為官宣:盤古大模型5.0將和“純血鴻蒙”一同亮相
2024-04-25 10:37 觀網(wǎng)財經(jīng)-科創(chuàng) -
楊利偉獲得錢學(xué)森最高成就獎
2024-04-24 15:36 航空航天 -
“80后”神十八乘組亮相 簡歷來了
2024-04-24 11:13 航空航天 -
中國將實施國內(nèi)首次在軌水生生態(tài)研究項目
2024-04-24 09:40 航空航天 -
《三體》重要情節(jié)被驗證?中國科學(xué)家首次觀測到電磁波動態(tài)傳播
2024-04-23 20:29 三體 -
神舟十八號任務(wù)完成全區(qū)合練 發(fā)射場做好應(yīng)對風(fēng)沙天氣準(zhǔn)備
2024-04-23 12:55 航空航天 -
阿斯麥:不走了,就在荷蘭擴張
2024-04-23 11:08 觀網(wǎng)財經(jīng)-海外 -
神十八發(fā)射場區(qū)全系統(tǒng)合練,近日將擇機發(fā)射
2024-04-21 16:56 航空航天
相關(guān)推薦 -
-
“美國已解除這項對華出口禁令” 評論 263“不如申請成中國一省” ,德國鋰企竟如此激將歐盟 評論 126最新聞 Hot
-
“即使特朗普下臺,美國政策也不會變,中日韓要合作”
-
“船到橋頭自然直”,印外長回應(yīng)美議員
-
俄海軍副總司令陣亡
-
“在越南的中國制造商松了一口氣”
-
他倒戈后就躲起來了,電話都不接,同僚評價:聰明
-
“美國已解除這項對華出口禁令”
-
“印軍將全面排查中國產(chǎn)零部件”
-
美國和盟友鬧掰?“本質(zhì)沒變,中國需高度警惕”
-
斯塔默不吱聲,英財相當(dāng)場落淚,“哭崩”市場
-
家樂福CEO放話:對中國小包裹,要學(xué)特朗普征稅100%
-
莫迪表態(tài):金磚是重要平臺
-
“還想阻撓大陸武統(tǒng)?美國太晚了”
-
受賄數(shù)額特別巨大,齊同生被提起公訴
-
“美國占一半,中國分四成,歐洲...”
-
李在明最新涉華表態(tài)
-
叫完“爸爸”又被白宮整活,北約秘書長:驚喜且有趣
-