-
星際2職業(yè)高手史上首次被AI擊潰 AlphaStar一戰(zhàn)成名
關(guān)鍵字: AlphaStar戰(zhàn)勝人類選手星際2《星際2》,人類首戰(zhàn)告負(fù)。
2016年3月DeepMind團(tuán)隊(duì)的AlphaGo擊敗世界圍棋頂級(jí)棋手李世石,但在AlphaGo還名不見(jiàn)經(jīng)傳時(shí),它首先是與職業(yè)棋手樊麾較量取得勝利,而如今該團(tuán)隊(duì)設(shè)計(jì)的新的AlphaStar同樣擊敗了星際2的職業(yè)選手TLO和MaNa。
TLO是一位德國(guó)職業(yè)星際2選手,原名Dario Wünsch,1990年7月13日出生?,F(xiàn)在效力于職業(yè)游戲戰(zhàn)隊(duì)Liquid。根據(jù)官方公布的數(shù)據(jù),TLO在2018 WCS Circuit排名:44。
(德國(guó)職業(yè)星際2選手TLO)
MaNa是一位出生于波蘭的職業(yè)星際2選手,原名Grzegorz Komincz,1993年12月14日出生,目前也效力于Liquid。MaNa去年獲得WCS Austin的第二名。根據(jù)官方公布的數(shù)據(jù),他在2018 WCS Circuit排名:13。
(波蘭的職業(yè)星際2選手MaNa)
1月25日,DeepMind 的AI AlphaStar 首次亮相。DeepMind 公布了其錄制的 AI 在《星際爭(zhēng)霸 2》中與2位職業(yè)選手的比賽過(guò)程:AlphaStar 分別以5:0的成績(jī)戰(zhàn)勝了兩位職業(yè)選手 TLO 和 MaNa 。
最后直播的一場(chǎng)比賽中,DeepMind限制了AlphaStar的游戲視角,并在沒(méi)有測(cè)試的前提下與MANA進(jìn)行比賽,讓人類終于贏了一場(chǎng)。
如何打造AlphaStar
對(duì)于如何訓(xùn)練AlphaStar,DeepMind 科學(xué)家 Oriol Vinyals、David Silver 表示,首先是模仿學(xué)習(xí),團(tuán)隊(duì)從許多選手那里獲得了很多比賽回放資料,并試圖讓 AI 通過(guò)觀察一個(gè)人所處的環(huán)境,盡可能地模仿某個(gè)特定的動(dòng)作,從而理解星際爭(zhēng)霸的基本知識(shí)。這其中所使用到的訓(xùn)練資料不但包括專業(yè)選手,也包括業(yè)余選手。這是 AlphaStar 成型的第一步。
AlphaStar學(xué)會(huì)打星際,全靠深度神經(jīng)網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)從原始游戲界面接收數(shù)據(jù) (輸入) ,然后輸出一系列指令,組成游戲中的某一個(gè)動(dòng)作。
再說(shuō)得具體一些,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)星際里的那些單位,應(yīng)用一個(gè)Transformer,再結(jié)合一個(gè)深度LSTM核心,一個(gè)自動(dòng)回歸策略 (在頭部) ,以及一個(gè)集中值基線 (Centralised Value Baseline)。
團(tuán)隊(duì)會(huì)使用一個(gè)稱為“Alpha League”的方法。在這個(gè)方法中,Alpha League 的第一個(gè)競(jìng)爭(zhēng)對(duì)手就是從人類數(shù)據(jù)中訓(xùn)練出來(lái)的神經(jīng)網(wǎng)絡(luò),然后進(jìn)行一次又一次的迭代,產(chǎn)生新的 agent 和分支,用以壯大“Alpha League”。
然后,這些 agent 通過(guò)強(qiáng)化學(xué)習(xí)過(guò)程與“Alpha League”中的其他競(jìng)爭(zhēng)對(duì)手進(jìn)行比賽,以便盡可能有效地?fù)魯∷羞@些不同的策略,此外,還可以通過(guò)調(diào)整它們的個(gè)人學(xué)習(xí)目標(biāo)來(lái)鼓勵(lì)競(jìng)爭(zhēng)對(duì)手朝著特定方式演進(jìn),比如說(shuō)旨在獲得特定的獎(jiǎng)勵(lì)。
最后,團(tuán)隊(duì)在“Alpha League”中選擇了最不容易被利用的 agent,稱之為“the nash of League”。
AI打星際2意味著什么
早在2003年人類就開(kāi)始嘗試用AI解決即時(shí)戰(zhàn)略(RTS)游戲問(wèn)題。那時(shí)候AI還連圍棋問(wèn)題還沒(méi)有解決,而RTS比圍棋還要復(fù)雜。
直到2016年,“阿爾法狗”打敗了李世石。DeepMind在解決圍棋問(wèn)題后,很快把目光轉(zhuǎn)向了《星際2》。
與國(guó)際象棋或圍棋不同,星際玩家面對(duì)的是“不完美信息博弈”。
在玩家做決策之前,圍棋棋盤上所有的信息都能直接看到。而游戲中的“戰(zhàn)爭(zhēng)迷霧”卻讓你無(wú)法看到對(duì)方的操作、陰影中有哪些單位。
這意味著玩家的規(guī)劃、決策、行動(dòng),要一段時(shí)間后才能看到結(jié)果。這類問(wèn)題在現(xiàn)實(shí)世界中具有重要意義。
為了獲勝,玩家必須在宏觀戰(zhàn)略和微觀操作之間取得平衡。
平衡短期和長(zhǎng)期目標(biāo)并適應(yīng)意外情況的需要,對(duì)脆弱和缺乏靈活性的系統(tǒng)構(gòu)成了巨大挑戰(zhàn)。
掌握這個(gè)問(wèn)題需要在幾個(gè)AI研究挑戰(zhàn)中取得突破,包括:
? 博弈論:星際爭(zhēng)霸沒(méi)有單一的最佳策略。因此,AI訓(xùn)練過(guò)程需要不斷探索和拓展戰(zhàn)略知識(shí)的前沿。
? 不完美信息:不像象棋或圍棋那樣,棋手什么都看得到,關(guān)鍵信息對(duì)星際玩家來(lái)說(shuō)是隱藏的,必須通過(guò)“偵察”來(lái)主動(dòng)發(fā)現(xiàn)。
? 長(zhǎng)期規(guī)劃:像許多現(xiàn)實(shí)世界中的問(wèn)題一樣,因果關(guān)系不是立竿見(jiàn)影的。游戲可能需要一個(gè)小時(shí)才能結(jié)束,這意味著游戲早期采取的行動(dòng)可能在很長(zhǎng)一段時(shí)間內(nèi)都不會(huì)有回報(bào)。
? 實(shí)時(shí):不同于傳統(tǒng)的棋類游戲,星際爭(zhēng)霸玩家必須隨著游戲時(shí)間的推移不斷地執(zhí)行動(dòng)作。
? 更大的操作空間:必須實(shí)時(shí)控制數(shù)百個(gè)不同的單元和建筑物,從而形成可能的組合空間。此外,操作是分層的,可以修改和擴(kuò)充。
為了進(jìn)一步探索這些問(wèn)題,DeepMind與暴雪2017年合作發(fā)布了一套名為PySC2的開(kāi)源工具,在此基礎(chǔ)上,結(jié)合工程和算法突破,才有了現(xiàn)在的AlphaStar。
除了DeepMind以外,其他公司和高校去年也積極備戰(zhàn):
? 4月,南京大學(xué)的俞揚(yáng)團(tuán)隊(duì),研究了《星際2》的分層強(qiáng)化學(xué)習(xí)方法,在對(duì)戰(zhàn)最高等級(jí)的無(wú)作弊電腦情況下,勝率超過(guò)93%。
? 9月,騰訊AI Lab發(fā)布論文稱,他們構(gòu)建的AI首次在完整的蟲(chóng)族VS蟲(chóng)族比賽中擊敗了星際2的內(nèi)置機(jī)器人Bot。
? 11月,加州大學(xué)伯克利分校在星際2中使用了一種新型模塊化AI架構(gòu),用蟲(chóng)族對(duì)抗電腦難度5級(jí)的蟲(chóng)族時(shí),分別達(dá)到 94%(有戰(zhàn)爭(zhēng)迷霧)和 87%(無(wú)戰(zhàn)爭(zhēng)迷霧)的勝率。
DeepMind CEO哈薩比斯在賽后說(shuō),雖然星際爭(zhēng)霸“只是”一個(gè)非常復(fù)雜的游戲,但他對(duì)AlphaStar背后的技術(shù)更感興趣。其中包含的超長(zhǎng)序列的預(yù)測(cè),未來(lái)可以用在天氣預(yù)測(cè)和氣候建模中。
內(nèi)容根據(jù)微信公眾號(hào)量子位、鈦媒體APP、36氪等資料綜合整理
- 原標(biāo)題:1-10落敗,5分鐘崩盤!星際2職業(yè)高手史上首次被AI擊潰,AlphaStar一戰(zhàn)成名
- 請(qǐng)支持獨(dú)立網(wǎng)站,轉(zhuǎn)發(fā)請(qǐng)注明本文鏈接:
- 責(zé)任編輯:程小康
- 最后更新: 2019-01-25 14:48:29
-
為什么我不看好社區(qū)團(tuán)購(gòu)
2019-01-25 10:31 -
小米首秀雙折疊屏手機(jī):柔宇高管語(yǔ)出驚人
2019-01-25 09:20 手機(jī) -
動(dòng)車與地鐵“混血” 上線運(yùn)營(yíng)
2019-01-25 07:24 高鐵世紀(jì) -
華為發(fā)布5G多模終端芯片和商用終端
2019-01-24 13:03 -
華為發(fā)布業(yè)界首款5G基站核心芯片 算力強(qiáng)約2.5倍
2019-01-24 12:09 華為 -
差點(diǎn)友盡!微信出bug消息發(fā)不出甚至有人被刪好友
2019-01-24 12:01 大公司 -
歐洲航天局:剛簽合同,2025年前登月
2019-01-23 08:19 航空航天 -
韓國(guó)兩大半導(dǎo)體巨頭去年第四季度業(yè)績(jī)慘淡
2019-01-22 18:05 -
難道這就是德國(guó)制造 柏林勃蘭登堡機(jī)場(chǎng)十幾年“爛尾”
2019-01-22 16:59 -
像素大戰(zhàn)!雷軍開(kāi)懟榮耀:底大一級(jí)壓死人
2019-01-22 16:51 手機(jī) -
從論證到首飛僅用一年半,飛龍-1空中首秀燃爆了!
2019-01-22 09:51 航空安全 -
英媒:深圳、上海將比紐約提前20年實(shí)現(xiàn)公交系統(tǒng)全電動(dòng)化
2019-01-22 09:22 -
我國(guó)自主研發(fā)磁性基板打破國(guó)外技術(shù)壟斷
2019-01-21 19:52 科技前沿 -
外媒:iPhone XR、XS銷量史上第二差,庫(kù)存激增將影響出貨量至年中
2019-01-21 16:05 手機(jī) -
多次數(shù)據(jù)封鎖后 美為何要借中國(guó)中繼星?
2019-01-21 13:56 科技前沿 -
任正非首談未進(jìn)"改革開(kāi)放杰出貢獻(xiàn)人物"名單:主動(dòng)放棄
2019-01-21 09:57 互聯(lián)網(wǎng)大佬 -
東芝宣布實(shí)現(xiàn)氧化亞銅太陽(yáng)能電池透明化
2019-01-21 06:39 -
同款佩奇走紅 鼓風(fēng)機(jī)價(jià)格翻3倍
2019-01-20 08:19 中國(guó)雷人秀 -
工信部副部長(zhǎng):中國(guó)加快5G商用已具堅(jiān)實(shí)基礎(chǔ)
2019-01-19 22:52 科技前沿 -
過(guò)去1個(gè)月 美航天局與中方討論這事
2019-01-19 17:00 航空航天
相關(guān)推薦 -
“美國(guó)已解除這項(xiàng)對(duì)華出口禁令” 評(píng)論 255家樂(lè)福CEO放話:對(duì)中國(guó)小包裹,要學(xué)特朗普征稅100% 評(píng)論 212“2027年起,整個(gè)產(chǎn)業(yè)將拱手讓給中國(guó)” 評(píng)論 126“不如申請(qǐng)成中國(guó)一省” ,德國(guó)鋰企竟如此激將歐盟 評(píng)論 126最新聞 Hot
-
“即使特朗普下臺(tái),美國(guó)政策也不會(huì)變,中日韓要合作”
-
“船到橋頭自然直”,印外長(zhǎng)回應(yīng)美議員
-
俄海軍副總司令陣亡
-
“在越南的中國(guó)制造商松了一口氣”
-
他倒戈后就躲起來(lái)了,電話都不接,同僚評(píng)價(jià):聰明
-
“美國(guó)已解除這項(xiàng)對(duì)華出口禁令”
-
“印軍將全面排查中國(guó)產(chǎn)零部件”
-
美國(guó)和盟友鬧掰?“本質(zhì)沒(méi)變,中國(guó)需高度警惕”
-
斯塔默不吱聲,英財(cái)相當(dāng)場(chǎng)落淚,“哭崩”市場(chǎng)
-
家樂(lè)福CEO放話:對(duì)中國(guó)小包裹,要學(xué)特朗普征稅100%
-
莫迪表態(tài):金磚是重要平臺(tái)
-
“還想阻撓大陸武統(tǒng)?美國(guó)太晚了”
-
受賄數(shù)額特別巨大,齊同生被提起公訴
-
“美國(guó)占一半,中國(guó)分四成,歐洲...”
-
李在明最新涉華表態(tài)
-
叫完“爸爸”又被白宮整活,北約秘書(shū)長(zhǎng):驚喜且有趣
-