-
大模型時代“得數據者得天下”,但數據侵權如何界定?
最后更新: 2024-01-04 12:09:41(文/陳濟深 編輯/呂棟)
2023年以來,隨著生成式AI的爆火,其不僅一定程度上給用戶提供了便利,也在不斷重塑互聯網行業(yè)的競爭格局,中外諸多廠商均加入了大模型開發(fā)的戰(zhàn)局,也間接引發(fā)了諸多的版權糾紛。
本周,紐約時報起訴OpenAI和微軟違規(guī)收集其新聞進行訓練一事(紐約時報起訴OpenAI和微軟“不勞而獲”,要求消滅),再次將大模型開發(fā)中涉嫌違規(guī)采集數據的問題暴露在公眾視野之下。
據不完全統(tǒng)計,今年僅在美國加州,就已經有數十起針對大模型開發(fā)商違規(guī)使用數據的訴訟。
這些訴訟頻發(fā)的背后是目前版權法案中,存在大模型對數據極度渴求和數據供應難以迅速增長的矛盾,“先授權后使用”的現有版權法律體系并無法匹配AI時代的數據使用方式,也引發(fā)了法律監(jiān)管的新問題。
大模型訓練階段究竟涉及哪些版權利用行為,這一過程可能存在哪些侵權風險?而全球監(jiān)管部門面對這個問題,也給出了各自的解答。
數據為王,版權訴訟戰(zhàn)頻發(fā)
在大模型爆炸性發(fā)展的2023年,紐約時報起訴OpenAI和微軟只不過是貫徹全年版權訴訟大戰(zhàn)的一個縮影。
今年1月,圖庫網站Getty Images對AI圖像生成器研發(fā)公司Stability AI提起法律訴訟,指其非法復制和處理版權圖像作為模型訓練數據。
4月,環(huán)球音樂集團發(fā)函要求Spotify等音樂流媒體平臺切斷AI公司的訪問權限,以阻止其版權歌曲被用于訓練模型和生成音樂。
6月,國內的教培巨頭學而思也被爆出,未經授權利用合作伙伴筆神作文數據進行大模型訓練導致的紛爭。
據不完全統(tǒng)計,自2022年11月至2023年10月,僅美國加州北區(qū)法院便已經受理了10起,版權人起訴Stability AI、Open AI、Meta、Alphabet等AIGC研發(fā)企業(yè)未經授權,利用版權作品進行模型訓練的案件。
在被告名單上,可以看到各個互聯網巨頭均在其中,而侵權訴訟頻發(fā)的背后則是大模型企業(yè)對于數據的極度渴求。
有業(yè)內人士對觀察者網表示:“目前的大模型競爭時代下,相比算法,得數據者得天下?!?
一方面,訓練數據是大模型訓練的基石和燃料,如果沒有數據,大模型的訓練就無法開展和持續(xù)。另一方面,當前技術領域的研究顯示,各家大模型在算法層區(qū)別并不大,并且具有同質化的趨勢。在此背景下,訓練數據就成了真正區(qū)分且影響大模型性能的重要因素之一。
以OpenAI的幾代GPT模型為例,訓練數據上,GPT-1預訓練數據量僅有5GB;到了GPT-2,這個數據則增加至40GB;而在GPT3模型下,OpenAI用以訓練模型的數據集數據量達到了驚人的45TB,而相比GPT3的1750億參數規(guī)模,GPT4相傳達到了100萬億規(guī)模的參數,對于數據的需求呈指數型飆升。
相比需求的爆炸性增長,對于各家大模型企業(yè)而言,自身數據和公開數據的供應顯然難以滿足這種指數型的需求,從互聯網和其他友商那“搭便車”成了行業(yè)內公開的秘密,也成為了目前版權訴訟頻發(fā)的根本原因。
為了應對“偷數據”頻發(fā)的現象,除了通過訴訟手段外,不少互聯網企業(yè)也利用了技術手段開啟防御模式。
目前,有多家處在“數據提供端”的公司對數據抓取、開源等做出了反應。比如X(原名Twitter)限制了用戶每天能查看的推文數量,幾乎使數據提供服務無法使用。馬斯克對此曾表示,這是對“數據抓取”和“系統(tǒng)操縱”的必要反應。
2023年4月,Reddit官方宣布將對調用其API的公司收費,原因正是OpenAI、谷歌等公司利用該平臺上的數據訓練模型。
此外,IT技術問答網站Stack Overflow也計劃向AI大模型的開發(fā)者及公司收取數據訪問費用。
標簽 AI大模型- 責任編輯: 陳濟深 
-
凈利潤“腰斬式”下滑,南航物流IPO募資數十億買飛機
2024-01-04 11:51 觀網財經-金融 -
時隔一年央行重啟PSL,釋放了什么政策信號?
2024-01-03 16:54 -
蘋果仍主導全球高端機市場,余承東稱華為要在中國“全面反攻”
2024-01-03 15:10 觀網財經-科創(chuàng) -
外媒緊盯:特斯拉首次被比亞迪超越
2024-01-03 10:46 觀察者頭條 -
對這項重要資源,八部門聯合發(fā)布方案
2024-01-03 10:21 -
“愛潑斯坦案”數百份密封文件將公布,克林頓代號“無名氏36”
2024-01-01 14:37 -
長光衛(wèi)星闖關科創(chuàng)板,經營活動凈現金流持續(xù)為負
2023-12-31 15:47 -
“大錯特錯”!阿根廷宣布不加入金磚
2023-12-30 22:49 金磚國家 -
盒馬CEO侯毅首談農業(yè)品牌化:一二三產聯動是趨勢
2023-12-30 18:56 觀網財經-互聯網 -
1個月開出12家新店,大潤發(fā)母公司高鑫零售加速多業(yè)態(tài)布局
2023-12-30 18:54 觀網財經-互聯網 -
采銷固定薪酬翻倍、業(yè)績激勵上不封頂,京東重回奔騰年代
2023-12-29 21:26 觀網財經-互聯網 -
RTX 4090被禁售后,英偉達在中國市場推出“閹割版”
2023-12-29 18:55 觀網財經-科創(chuàng) -
央行:進一步提升境外來華人士的支付便利化
2023-12-29 18:31 觀網財經-金融 -
統(tǒng)計局最終核實2022年GDP,比初步核算數減少5483億元
2023-12-29 16:11 中國經濟 -
日企控股的硅片生產商欲登陸A股,目標估值超200億
2023-12-29 15:11 觀網財經-金融 -
招商銀行“逆向討薪”近6000萬
2023-12-29 14:59 -
外國人持證可在線開A股賬戶,頭部券商已上線相關功能
2023-12-29 14:52 股市 -
華為:預計今年收入超7000億,挑戰(zhàn)依然嚴峻
2023-12-29 11:06 觀網財經-科創(chuàng) -
2023年人民幣對美元中間價全年累計下跌近1.7%
2023-12-29 11:06 -
“半年沒還月供了”,業(yè)主發(fā)帖:600萬買入現掛280萬沒人要
2023-12-29 09:15 觀網財經-房產
相關推薦 -
美國放風:伊朗有動作了 評論 7靠萬斯“決勝一票”,“大而美”法案驚險闖關參議院 評論 149電氣化已落后亞洲,“大而美”法案或令美國雪上加霜 評論 71為什么這支國足被普遍看好? 評論 94被批評“過于親近中國”,澳總理這樣回應 評論 83最新聞 Hot
-
好一個“舉賢不避親”,特朗普推薦兒媳參選
-
開庭前妻子墜樓身亡,柯文哲前副手痛哭:臺灣怎么變成這樣
-
美國放風:伊朗有動作了
-
“中方正考慮邀請李在明出席”
-
“中國洋垃圾禁令震動全球”,馬來西亞也跟了
-
靠萬斯“決勝一票”,“大而美”法案驚險闖關參議院
-
白宮官員:沒人在乎馬斯克說了什么
-
日澳印各懷心事,魯比奧還想著中國:別談了,得干實事,搞礦!
-
三年來首次,普京與馬克龍通話
-
“我會給日本寫信感謝他們,給他們加關稅”
-
特朗普:奧巴馬糟糕小布什低分,拜登史上最差,而我…
-
美財長:中國加快稀土出口吧,回到過去
-
“《新華字典》例句稱小孩是累贅”再引爭議,多方回應
-
英國樂隊在音樂節(jié)上高喊“以軍去死”,英美都“炸”了
-
多地宣布“解禁”中華田園犬
-
內塔尼亞胡證實下周訪美,除了特朗普還要見他們
-