-
熊節(jié):算法推薦終于可關(guān)閉,中國(guó)《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》開世界先河
算法推薦的技術(shù)原理
各種形式的算法推薦,包括《規(guī)定》中列舉的“生成合成、個(gè)性化推送、排序精選、檢索過(guò)濾、調(diào)度決策”等形式,當(dāng)下主流的實(shí)現(xiàn)方式都是采用機(jī)器學(xué)習(xí)(machine learning),背后的原理都是基于貝葉斯統(tǒng)計(jì)(Bayesian statistics)方法的預(yù)測(cè)——聽起來(lái)很高深,其實(shí)通過(guò)一個(gè)簡(jiǎn)單的例子很容易就能理解。
假設(shè)你丟一個(gè)以前沒用過(guò)的骰子,你認(rèn)為有多大概率丟出6點(diǎn)?當(dāng)然,在沒有任何額外信息的情況下,你的預(yù)測(cè)是“1/6”。然后,你連續(xù)丟了20把,每把都是6點(diǎn),這時(shí)候你認(rèn)為下一把繼續(xù)丟出6點(diǎn)的概率是多大?經(jīng)典概率論說(shuō),每次丟骰子都是一個(gè)獨(dú)立隨機(jī)事件,過(guò)去丟出的點(diǎn)數(shù)不影響未來(lái)丟出的點(diǎn)數(shù),所以你的預(yù)測(cè)仍然應(yīng)該是“1/6”。但很明顯正常人不會(huì)這么想。
“這個(gè)骰子連丟了20把6點(diǎn)”這項(xiàng)信息很明顯會(huì)影響對(duì)未來(lái)的決策(例如可能說(shuō)明這個(gè)骰子被灌了鉛),因此你會(huì)預(yù)測(cè)下一把有很大概率還是會(huì)丟出6點(diǎn)。簡(jiǎn)化地說(shuō),貝葉斯統(tǒng)計(jì)就是“基于過(guò)去已經(jīng)發(fā)生過(guò)的事件預(yù)測(cè)未來(lái)將要發(fā)生的事件”。各種算法推薦都是在進(jìn)行這樣的預(yù)測(cè):
知乎的個(gè)性化推送就是預(yù)測(cè)用戶可能喜歡看什么問題和回答;
百度的檢索過(guò)濾就是預(yù)測(cè)用戶可能對(duì)哪些搜索結(jié)果感興趣;
淘寶的排序精選就是預(yù)測(cè)用戶可能購(gòu)買哪些商品。
這些預(yù)測(cè)所基于的“過(guò)去已經(jīng)發(fā)生過(guò)的事件”則是與用戶相關(guān)的、非常寬廣的數(shù)據(jù)集,不僅包含“用戶看過(guò)/贊過(guò)/收藏過(guò)哪些回答”這種直接的用戶行為,還包含大量用戶本身的屬性信息:年齡、性別、地域、教育程度、職業(yè)、上網(wǎng)設(shè)備、買過(guò)什么東西、發(fā)過(guò)什么言論、住多大房子、家里幾口人、喜歡張信哲、反感蔡徐坤……這些信息都會(huì)被用于預(yù)測(cè)用戶的偏好。
每一項(xiàng)類似這樣的屬性信息也被稱為“特征”(feature),對(duì)于一個(gè)普通用戶,互聯(lián)網(wǎng)公司通常擁有數(shù)千、數(shù)萬(wàn)項(xiàng)特征信息。其中一些特征信息來(lái)自該公司本身的業(yè)務(wù),更多的特征信息來(lái)自其他平臺(tái),三大運(yùn)營(yíng)商、微博、騰訊、阿里、手機(jī)制造商等企業(yè)都會(huì)SDK(軟件開發(fā)包)的方式與其他互聯(lián)網(wǎng)應(yīng)用共享用戶個(gè)人特征信息。
知乎與第三方共享個(gè)人信息的清單(部分)
在所有這些特征信息中,給定一項(xiàng)具體的預(yù)測(cè),有些特征與這項(xiàng)預(yù)測(cè)的相關(guān)度較高,有些特征的相關(guān)度則較低。如果能從預(yù)測(cè)的結(jié)果回溯到哪些特征產(chǎn)生了重要的影響,我們就可以說(shuō)這種算法“具備可被審核性”(auditable)。例如最簡(jiǎn)單、最基礎(chǔ)的機(jī)器學(xué)習(xí)算法線性回歸(linear regression),其原理就是根據(jù)過(guò)去的事件給每項(xiàng)特征打一個(gè)權(quán)重分?jǐn)?shù),然后根據(jù)這些權(quán)重分?jǐn)?shù)預(yù)測(cè)未來(lái)的事件。從一個(gè)線性回歸的預(yù)測(cè)模型中,可以直觀地看到每項(xiàng)特征的在預(yù)測(cè)中的權(quán)重,因此線性回歸是特別容易審核的一種算法。
當(dāng)然,最簡(jiǎn)單、最基礎(chǔ)的算法,也就存在預(yù)測(cè)能力不夠強(qiáng)的問題。形象地說(shuō),只用簡(jiǎn)單的線性回歸,無(wú)法把特征值里隱含的信息全都榨取出來(lái),所以預(yù)測(cè)效果不見得特別好。于是科學(xué)家和工程師們想了很多辦法來(lái)壓榨特征值里的信息。一種辦法叫“特征工程”(feature engineering),說(shuō)白了就是從已知的特征值推導(dǎo)出新的特征值,例如根據(jù)用戶的手機(jī)型號(hào)、購(gòu)物清單給用戶打上“購(gòu)買力強(qiáng)”或者“時(shí)尚潮人”的新標(biāo)簽,這就是一種簡(jiǎn)單的特征工程。
另一種壓榨特征值的辦法是把起初的特征信息視為一“層”輸入,然后用各種數(shù)學(xué)方法把輸入層變換成新的信息節(jié)點(diǎn),從而形成一個(gè)多層的“網(wǎng)絡(luò)”。這個(gè)變換的過(guò)程可以重復(fù)進(jìn)行,變換的層數(shù)越多,就說(shuō)這個(gè)網(wǎng)絡(luò)越“深”——這就是“深度學(xué)習(xí)”(deep learning)這個(gè)詞的由來(lái)。
盡管科學(xué)家經(jīng)常用“神經(jīng)元”、“神經(jīng)網(wǎng)絡(luò)”來(lái)類比這些數(shù)學(xué)變換的結(jié)果,但很多時(shí)候,經(jīng)過(guò)這些變換得到的信息節(jié)點(diǎn)幾乎沒有現(xiàn)實(shí)世界中的含義,純粹是一種數(shù)學(xué)工具的產(chǎn)物。所以業(yè)界有一種說(shuō)法:深度學(xué)習(xí)就像煉金術(shù)(國(guó)內(nèi)也稱“煉丹”),把數(shù)據(jù)丟進(jìn)神經(jīng)網(wǎng)絡(luò),不知道什么原因就煉出結(jié)果了——如果結(jié)果不理想,就再加幾層神經(jīng)網(wǎng)絡(luò)。
正因?yàn)樯疃葘W(xué)習(xí)常有“煉金術(shù)”的神秘感,使用它們的工程師經(jīng)常自己都不知道為什么一個(gè)算法有效。例如谷歌曾發(fā)表過(guò)一篇論文介紹他們的圖像識(shí)別算法,其中使用了一個(gè)深達(dá)19層的神經(jīng)網(wǎng)絡(luò)(VGG19)。然而谷歌的照片服務(wù)(Google Photos)卻多次被曝暗含種族歧視,甚至把黑人照片識(shí)別為“大猩猩”。事后谷歌根本無(wú)法找出算法中的問題出在哪里,只好刪除“大猩猩”標(biāo)簽了事。
VGG19:深度為19層的卷積神經(jīng)網(wǎng)絡(luò),主要用于圖像識(shí)別
盡管有谷歌的前車之鑒,類似的問題仍然在各家互聯(lián)網(wǎng)巨頭的產(chǎn)品中反復(fù)出現(xiàn)。2020年,部分臉書用戶在觀看一段以黑人為主角的視頻時(shí)收到推薦提示,詢問他們是否愿意“繼續(xù)觀看有關(guān)靈長(zhǎng)類動(dòng)物的視頻”。2018年MIT媒體實(shí)驗(yàn)室的研究員Joy Buolamwini發(fā)現(xiàn),微軟、IBM和Face++的人臉識(shí)別算法在識(shí)別黑色人種的性別的錯(cuò)誤率要遠(yuǎn)遠(yuǎn)高于白色人種,而且膚色越黑,識(shí)別率就越低,黑人女性的識(shí)別錯(cuò)誤率高達(dá)35%。過(guò)度依賴“煉金術(shù)”式的深度學(xué)習(xí)算法,是這些互聯(lián)網(wǎng)巨頭對(duì)算法審核態(tài)度冷淡的原因,同時(shí)也導(dǎo)致它們難以修正其算法中隱含的系統(tǒng)性歧視。
-
本文僅代表作者個(gè)人觀點(diǎn)。
- 責(zé)任編輯: 周遠(yuǎn)方 
-
俄外長(zhǎng):克里米亞地位不能談判
2022-03-02 20:19 -
“雙減”半年教培機(jī)構(gòu)眾生相:集體虧損、跨界轉(zhuǎn)型
2022-03-02 17:53 大公司 -
郭樹清談螞蟻等整改:自查基本結(jié)束,還有一些問題需繼續(xù)探索
2022-03-02 17:53 阿里帝國(guó) -
郭樹清:我國(guó)房地產(chǎn)泡沫化金融化勢(shì)頭得到根本扭轉(zhuǎn)
2022-03-02 16:04 -
《士兵突擊》制片人吳毅被捕,浙文影業(yè)擬起訴追償2.64億元
2022-03-02 15:11 -
大公司早報(bào) | 張勇卸任海底撈CEO 華為稱不會(huì)退出海外市場(chǎng)
2022-03-02 09:08 大公司 -
百度2021年總營(yíng)收1245億,23%花在研發(fā)上
2022-03-01 23:04 大公司 -
看到東京地標(biāo)亮燈,烏克蘭大使激動(dòng)發(fā)推,結(jié)果尷尬了…
2022-03-01 21:31 烏克蘭之殤 -
工信部發(fā)聲,半年漲價(jià)300%的鋰電材料要降溫了?
2022-03-01 20:26 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
-
美加商家抵制伏特加,北約酒商躺槍
2022-03-01 13:43 觀網(wǎng)財(cái)經(jīng)-海外 -
紫光展銳CEO遭董事會(huì)解職,市占率已反超華為、三星
2022-03-01 11:40 觀網(wǎng)財(cái)經(jīng)-科創(chuàng) -
大公司早報(bào) | 董明珠連任格力董事長(zhǎng) 阿里將校招數(shù)百名頂尖技術(shù)人才
2022-03-01 09:11 大公司 -
中國(guó)開始從烏克蘭撤出首批公民
2022-03-01 00:35 烏克蘭之殤 -
德邦物流因重大事項(xiàng)停牌,業(yè)績(jī)創(chuàng)新低后將何去何從?
2022-02-28 19:54 大公司 -
不談融資,先搶賽道?蔚來(lái)將在港股二次上市
2022-02-28 19:16 觀網(wǎng)財(cái)經(jīng)-汽車 -
比亞迪、一汽共建135億元電池項(xiàng)目
2022-02-28 18:27 汽車工業(yè) -
58同城因未核驗(yàn)商戶真實(shí)信息被罰
2022-02-28 18:19 觀網(wǎng)財(cái)經(jīng)-互聯(lián)網(wǎng) -
俄羅斯暫時(shí)禁止外國(guó)人出售證券
2022-02-28 17:07 觀網(wǎng)財(cái)經(jīng)-海外 -
應(yīng)烏克蘭要求,F(xiàn)acebook限制部分俄官媒賬戶
2022-02-28 15:19 俄羅斯與世界
相關(guān)推薦 -
操心中國(guó),美國(guó)“黑手”又要伸向馬來(lái)西亞和泰國(guó) 評(píng)論 151特朗普要求“大搞特搞”,美團(tuán)體急了:沒中國(guó)不行 評(píng)論 133“美國(guó)人,真正該擔(dān)心的時(shí)候到了” 評(píng)論 182直播:算法向善——共話AI與人類命運(yùn)共同體未來(lái) 評(píng)論 8最新聞 Hot
-
三權(quán)分立,還是你們美國(guó)人會(huì)玩啊…
-
以軍總長(zhǎng)被曝與內(nèi)塔尼亞胡激烈爭(zhēng)吵:這么干局勢(shì)會(huì)失控
-
“是特朗普向媒體爆料:馬斯克吸毒”
-
哈馬斯接受?;鹂蚣?,特朗普:好事
-
江蘇:縣級(jí)以下禁止開發(fā)政務(wù)服務(wù)APP
-
“家庭主義者”盧特尼克,把歐盟鴿了
-
通話通了個(gè)寂寞?特朗普不滿,克宮回應(yīng)
-
“盯上”西非礦產(chǎn),特朗普將會(huì)晤非洲五國(guó)
-
英前防相挑釁:臺(tái)灣問題上,西方對(duì)中國(guó)簡(jiǎn)直慫包…
-
操心中國(guó),美國(guó)“黑手”又要伸向馬來(lái)西亞和泰國(guó)
-
“特朗普要想訪華,先把臺(tái)灣問題說(shuō)清楚”
-
“對(duì)以色列感到憤怒和警惕,沙特將與伊朗保持和解”
-
特朗普又給日本背后捅刀,逼得臺(tái)積電沒法了…
-
“大而美”法案通過(guò),馬斯克表態(tài)
-
朱時(shí)茂自曝被騙錢,“我還是反詐大使”
-
英F-35“趴窩”印度機(jī)場(chǎng)20天,快被“玩壞”了…
快訊 -