-
“你打籃球像蔡徐坤”:微信翻譯這個bug是怎么回事?
關(guān)鍵字: 微信翻譯蔡徐坤打籃球bug吳亦凡
可能原因 1:訓(xùn)練集噪音
在接受硅星人采訪的多位機(jī)器學(xué)習(xí)專家當(dāng)中,大部分人都給這條原因投了票。
形象一點(diǎn)比喻,噪音 (noise) 就是訓(xùn)練翻譯系統(tǒng)的數(shù)據(jù)集里出現(xiàn)的”不正確“的,“臟”的數(shù)據(jù)。
訓(xùn)練一個優(yōu)秀的NMT系統(tǒng),需要大量高質(zhì)量的平行語料數(shù)據(jù)——”高質(zhì)量“指的是準(zhǔn)確的翻譯,”平行語料“指的是一句英文一句中文的,”I love you = 我愛你“,等等。
這些數(shù)據(jù)要去哪里找?英漢辭典是一個來源。除此之外,最流行的做法是去互聯(lián)網(wǎng)上抓取,從全網(wǎng)大量的數(shù)據(jù)里,抓取到所需要的高質(zhì)量平行語料。
"you play basketball like caixukun" 被翻譯成了”你的籃球打得真好“,噪音是哪來的?硅星人發(fā)現(xiàn)有兩種可能性:
比如,網(wǎng)上已經(jīng)存在了大量”caixukun=好“的語料。這些語料在爬取中被微信翻譯當(dāng)成了平行語料并采用了。但是實(shí)際上,這屬于”噪音“,因?yàn)樵诜g的語境下建立不了相關(guān)性,沒辦法確保是準(zhǔn)確的。微信AI 可能在以后加強(qiáng)類似領(lǐng)域的去噪音。
創(chuàng)辦了一家機(jī)器學(xué)習(xí)公司的韓辰*指出:在訓(xùn)練中,微信翻譯團(tuán)隊(duì)人員可能使用生成對抗攻擊 (generative adversarial attack) 的方式,做了類似手動加入噪音,在訓(xùn)練過程中主動對類似的翻譯結(jié)果進(jìn)行糾錯的操作,最終干擾了翻譯結(jié)果——這是一種可能發(fā)生的情況,我們并不揣測動機(jī)。
用噪音干擾計算機(jī)視覺圖像識別的示例:人類無法辨認(rèn)的圖片,被深度神經(jīng)網(wǎng)絡(luò)識別為不同的物體。示例與本文主題無關(guān),僅作參考。
在有噪音等異常情況存在的前提下,系統(tǒng)仍然能夠正常訓(xùn)練、工作,給出高質(zhì)量翻譯結(jié)果——這樣的能力在計算機(jī)科學(xué)里叫做“魯棒性”(robustness)。
王夏指出,魯棒性是NMT以及今后的機(jī)器翻譯技術(shù)都需要改進(jìn)和注意的。
可能原因 2:集外詞
一種可能出現(xiàn)的情況是,在微信翻譯訓(xùn)練用的數(shù)據(jù)集中,壓根就沒有出現(xiàn)過"caixukun"這個詞。
當(dāng)NMT遇到集外詞時,可能會進(jìn)行拆解找到集內(nèi)詞。這個拆解的過程也是隨機(jī)的,比方說它可能拆成了 caix ukun,得到的仍然是集外詞。
集外詞翻譯不好是很正常。如果沒見過,那就不會翻,出現(xiàn)偏差也是情理之中的。
可能原因 3:領(lǐng)域不匹配
”另一種可能出現(xiàn)的情況是領(lǐng)域不匹配 (domains do not match),“王夏表示,并指出這并不一定是具體案例的情況。
在這個具體案例中,句子里出現(xiàn)了 basketball(籃球),而微信翻譯的訓(xùn)練數(shù)據(jù)集可能沒有籃球領(lǐng)域的,或者跟籃球有關(guān)的非常少。一個不匹配的領(lǐng)域,再加上句子里還有一個集外詞,共同作用使得翻譯結(jié)果很難正確。
這個解釋行得通。比方說商貿(mào)往來是大部分微信用戶使用翻譯的原因,那么微信在訓(xùn)練NMT時可能用了貿(mào)易領(lǐng)域的數(shù)據(jù)集;籃球不是微信翻譯用戶的主要場景,那么在訓(xùn)練時也許就沒有用籃球的數(shù)據(jù)集。
如果因?yàn)榧庠~和領(lǐng)域不匹配而出了錯,你也不能怪它。沒學(xué)過的東西,它又怎么可能會呢?
微信AI 的官方網(wǎng)站
可能原因 4:奇怪單詞+無法引入常識
這個原因也是由NMT的工作原理導(dǎo)致的。
NMT對于長句子、段落,甚至一整篇文章的翻譯效果很不錯。這得益于它的機(jī)制,在翻譯某個詞時能夠貼合上下文的語境。
但是在短句上,它就不一定靈了——特別是當(dāng)這個句子完全不通順的時候。
可能因?yàn)樵?you play basketball like caixukun"這句話中,caixukun 是一個非常奇怪的單詞。它既沒有出現(xiàn)在任何一本英語辭典當(dāng)中,看上去跟句子的上下文也沒什么關(guān)系。
微信翻譯的訓(xùn)練,可能發(fā)生在蔡徐坤成為 NBA 中國新春賀歲大使之前
人類在翻譯的時候,能夠參考已有的常識、知識,翻不出來也可以去查資料。NMT卻做不到這一點(diǎn),當(dāng)它在工作的時候,它并不具備一個常識庫可以去參考。
而且,這一點(diǎn)并不是微信做不好——現(xiàn)在去用同樣的句子考考 Google Translate,得到的結(jié)果也不令人完全滿意。
“這個(無法引入常識的)問題不僅體現(xiàn)在翻譯任務(wù)上,還包括閱讀理解、問答等任務(wù)。如何在這一點(diǎn)上做改進(jìn),是個很有趣的方向,大家也都還在探索,”王夏表示。
所以,微信做錯了嗎?
- 原標(biāo)題:“你打籃球像蔡徐坤”:微信翻譯這個bug是怎么回事?
- 責(zé)任編輯:程北墨
- 最后更新: 2019-03-07 10:26:12
-
中國頁巖氣單井日產(chǎn)量創(chuàng)新高
2019-03-07 07:28 能源戰(zhàn)略 -
蘋果供應(yīng)商曬折疊屏大招:正研發(fā)可折玻璃
2019-03-06 21:38 蘋果新“品” -
去年我國研發(fā)經(jīng)費(fèi)支出近2萬億元,比上年增11.6%
2019-03-06 21:03 科技前沿 -
只差一塊錢,小米9和iQOO到底誰更香?
2019-03-06 17:41 手機(jī) -
中國存儲器能否打破海外壟斷?
2019-03-06 17:29 TMT觀察 -
-
小米盧偉冰總結(jié)魅族Note 9:遺憾還在繼續(xù)
2019-03-06 17:06 -
三星正研發(fā)兩款折疊屏手機(jī),一款類似華為Mate X
2019-03-06 16:22 大公司 -
去年全球智能手機(jī)出貨量減少5.1% 北美銳減13.2%
2019-03-06 14:57 手機(jī) -
觀點(diǎn):提速降費(fèi)與5G使能兼顧 運(yùn)營商如何兼顧
2019-03-06 13:30 -
格力手機(jī)3代上架官網(wǎng) 售價3600元
2019-03-06 13:22 -
動工在即!華為要用100億打造上海青浦研發(fā)基地
2019-03-06 12:14 大公司 -
“夜視眼藥水” 治色盲有戲
2019-03-06 11:14 -
最新報告:萬億研發(fā)經(jīng)費(fèi),中國都花在哪兒了?
2019-03-06 10:28 科技前沿 -
蘋果iPhone XI配置曝光:三攝、水下模式、黑暗模式
2019-03-05 20:10 手機(jī) -
中國空間站安排上了!將首次向國際開放
2019-03-05 19:30 航空航天 -
銷量不佳,iPhone再次全網(wǎng)瘋狂降價
2019-03-05 18:23 手機(jī) -
張小龍請回答:微信這些功能是咋想的?
2019-03-05 14:27 TMT觀察 -
英特爾與紫光展銳5G情斷,2大關(guān)鍵因素露餡
2019-03-05 13:49 TMT觀察 -
紫光展銳自主研發(fā)的春藤510是一款怎樣的5G芯片?
2019-03-05 13:37 科技前沿
相關(guān)推薦 -
“美國已解除這項(xiàng)對華出口禁令” 評論 271最新聞 Hot
-
“沒客戶!”獲47億補(bǔ)貼后,三星在美芯片廠推遲投產(chǎn)
-
約翰遜急著表決,民主黨領(lǐng)袖連續(xù)講了6小時,還沒?!?/a>
-
“六代機(jī)機(jī)密會議,扎克伯格突然闖入”,白宮回應(yīng)
-
8年后,默克爾吐槽特朗普:真裝!
-
美軍評估又變了,“不是幾個月是兩年”
-
“即使特朗普下臺,美國政策也不會變,中日韓要合作”
-
“船到橋頭自然直”,印外長回應(yīng)美議員
-
俄海軍副總司令陣亡
-
“在越南的中國制造商松了一口氣”
-
他倒戈后就躲起來了,電話都不接,同僚評價:聰明
-
“美國已解除這項(xiàng)對華出口禁令”
-
“印軍將全面排查中國產(chǎn)零部件”
-
美國和盟友鬧掰?“本質(zhì)沒變,中國需高度警惕”
-
斯塔默不吱聲,英財相當(dāng)場落淚,“哭崩”市場
-
家樂福CEO放話:對中國小包裹,要學(xué)特朗普征稅100%
-
莫迪表態(tài):金磚是重要平臺
-