-
人工智能與媒體未來|當(dāng)昔日的碼農(nóng)對資深媒體人發(fā)表演講,他沒說出的才可怕
關(guān)鍵字: 今日頭條今日頭條的算法新媒體革命一點資訊今日頭條艾瑞咨詢天天快報深入透視頭條的算法
我注意到今日頭條在拉勾網(wǎng)打出一個百萬美元年薪的廣告,招募算法架構(gòu)師,要求擅長:貝葉斯學(xué)派相關(guān)算法,超大規(guī)模離散LR,深度神經(jīng)網(wǎng)絡(luò),各種tree-based的算法等。其他算法工程師崗位要求大同小異。
這些在技術(shù)人士眼中并不特別,很多IT公司必備,多和概率統(tǒng)計學(xué)有關(guān)。比如貝葉斯算法,常用的郵件客戶端上就有出現(xiàn)。
Foxmail截圖(所以張小龍他也是很精通貝葉斯算法的)
我想盡我所能簡單介紹一下這位百萬年薪工程師具備的算法知識,不從數(shù)學(xué)專業(yè)角度(專業(yè)角度我也不懂),而是從用戶角度思考“算法想要什么”。
算法如何閱讀新聞
以招聘啟事中的tree-based算法為例。為了處理信息,算法的初始訴求往往是對海量信息做分類聚合。人類眼中的詞匯在它眼里都是參數(shù)(維度),一千個不同詞匯組成的一篇文章就是一千個維度組成的一個向量。然后機(jī)器在代數(shù)世界里衡量不同向量的相似度——簡單向量距離分類法、貝葉斯算法、KNN(K最近鄰居)算法、線性回歸、邏輯回歸……
維度太多,于是算法進(jìn)化了,不再把每個詞當(dāng)作維度,而是把html代碼里的節(jié)點標(biāo)記(DOM)作為維度,這樣就大大減少了維度個數(shù)。人類看見的標(biāo)題、文字、圖片,被代碼放在不同的DOM節(jié)點里,比如head,比如body,比如TR、TD(表示表格的代碼),構(gòu)成樹狀結(jié)構(gòu)。算法以這些節(jié)點為維度,用各種算法對比不同的文檔異同——k means(硬聚類)算法,minimax(極小化極大算法)……再進(jìn)一步,引入圖論范疇的模式樹,就有了更高級的tree-based算法。
下圖是個常見的html dom展示,不需要看懂,只要了解機(jī)器眼中的文章是什么樣子。
算法五花八門,我說的也不準(zhǔn),主要看氣質(zhì)——算法這個孩子不知道新聞?wù)f了什么,只知道哪些新聞是同類,哪些是熱點(點的人多當(dāng)然就是熱點,機(jī)器可以通過一種“組合”算法來判斷,可以參見南京大學(xué)新聞傳播學(xué)院助理研究員、奧美數(shù)據(jù)科學(xué)實驗室主任王成軍的文章《“今日頭條”怎么計算:“網(wǎng)絡(luò)爬蟲+相似矩陣”技術(shù)運作流程》)。文章標(biāo)簽、關(guān)鍵詞等也起到作。
算法匹諾曹的行為很有趣,好像在努力用各種辦法躲避對內(nèi)容靈魂本身的認(rèn)知,只通過外貌的形式特征去猜內(nèi)容的相關(guān)度。
算法如何研究讀者
讀者身上沒有關(guān)鍵詞,沒有標(biāo)簽,算法如何把握?數(shù)學(xué)家們有辦法,貝葉斯算法就是一種。
經(jīng)典的貝葉斯問題在小學(xué)奧數(shù)里就有(美劇《生活大爆炸》里也有):假如分別有A、B兩個口袋,口袋A里有7個紅球和 3個白球,口袋B里有1個紅球和9個白球,現(xiàn)從這兩個口袋里任意抽出了一個球,且是紅球,問這個紅球是來自容器A的概率是多少?
(圖片來自“機(jī)器之心”網(wǎng)站)
讓我們換一個更具新聞性的表達(dá)方式:假如已知韓國5年發(fā)射一次衛(wèi)星且每次爆炸失敗率是60%,朝鮮2年發(fā)射一次衛(wèi)星且每次爆炸失敗率是40%?,F(xiàn)在從朝鮮半島傳來一聲衛(wèi)星發(fā)射失敗爆炸的巨響,請問這枚火箭來自朝鮮的概率是多少?
根據(jù)貝葉斯公式【P(B|E) = P(B) × P(E|B) / P(E))】就可以推導(dǎo)出這個概率來,也就是逆向計算概率。恰好頭條自己提供了一個范例:
2015年10月,在中國傳媒大學(xué)新媒體研究院和今日頭條聯(lián)合舉辦的“洞見數(shù)據(jù)的力量——電視媒體高峰論壇”上,一位叫做安娜的女士說:
“頭條有個獨特的算法能推算用戶的年齡,即使你沒在頭條訂閱。系統(tǒng)根據(jù)已確定年齡人群的動作、特點和興趣做了一個模型,由協(xié)同原則判斷讀者是否符合這個模型,這時機(jī)器先預(yù)判是否為該年齡段的用戶,同時機(jī)器再根據(jù)你的閱讀動作最終確定年齡段。”
這個獨特的算法可能就是貝葉斯算法(當(dāng)然也許不止一種算法,比如也可能存在專門用于挖掘不同數(shù)據(jù)集合間關(guān)聯(lián)性的Apriori算法等)。我猜想算法架構(gòu)師會預(yù)先根據(jù)心理學(xué)、社會學(xué)統(tǒng)計數(shù)據(jù)以及以往讀者點擊數(shù)據(jù),構(gòu)建一個用概率來描述的人格特征模型,比如男性模型的特征之一是在閱讀新聞時點擊軍事新聞的概率是40%,而女性模型是4%。一旦一個讀者點擊了軍事新聞,算法就開始逆推TA的性別,加上TA點擊其他新聞的行為數(shù)據(jù),綜合計算,就能比較準(zhǔn)確地判斷TA的性別。綜合ip地址(地理信息)、點擊時間、評論參與、點贊行為這些明確的信息,就能區(qū)分出不同讀者的取向、興趣。
如果我們回看商業(yè)史,就會看到這樣的算法精神一直孕育在資本主義消費市場之內(nèi)。歐美的商業(yè)家們早就在追蹤消費者的喜好數(shù)據(jù),沃爾瑪超市里的商品就是典型,什么商品放在什么位置都是有講究的,大賣場長期跟蹤用戶在商場里的行為和銷售數(shù)據(jù),入口處堆放的商品就好比新聞首頁推薦的頭條。一開始是通過人工記錄、報表分析,有了攝像頭,就可以分析錄像中顧客的行動軌跡?;ヂ?lián)網(wǎng)推薦技術(shù)則使得這種跟蹤細(xì)化到了個人。
原理不難理解,但做起來考驗智慧和耐心。同時,算法面臨著自己的巨大困境:
-
本文僅代表作者個人觀點。
- 請支持獨立網(wǎng)站,轉(zhuǎn)發(fā)請注明本文鏈接:
- 責(zé)任編輯:藏劍
-
最新聞 Hot
-
特朗普要求“大搞特搞”,美團(tuán)體急了:沒中國不行
-
“美國人,真正該擔(dān)心的時候到了”
-
涉及中國,韓企與美國“一拍即合”
-
歐洲學(xué)者:現(xiàn)在,中國能不能反過來幫幫我們?
-
印度“硬剛”:將報復(fù)美國
-
“歐洲同行都覺得,未來十年誰將主導(dǎo)已無懸念,不會是美國”
-
普京:全世界都想進(jìn)入中國市場
-
馬斯克:對!全面公布所有文件
-
美方恢復(fù)出口,“不是恩賜也不是讓步,是我們斗爭來的”
-
想得真美!“美越協(xié)議這一條,旨在孤立中國…”
-
“美國政府像青少年,拿信用卡揮霍,直到…”
-
“聽到東方驚雷了嗎?那是14億中國人在笑話美國”
-
“以色列和俄羅斯正進(jìn)行秘密會談”
-
佩通坦基本盤還穩(wěn)嗎?泰國權(quán)力天平傾向何方
-
“不同于西方,中國正建設(shè)由技術(shù)驅(qū)動的福利模式”
-
中國駐泰國大使館:被騙至緬甸的男模特已獲救
-