国产乱人伦AV在线麻豆A,國產未成女YOUNV仙蹤林

您的位置：首頁 >綜合 > 財(cái)經(jīng)要聞 >

網(wǎng)易互娛AI Lab在NeurIPS Neural MMO挑戰(zhàn)賽中以絕對(duì)優(yōu)勢奪冠

來源：鳳凰網(wǎng)財(cái)經(jīng) 2022-12-13 20:40:21

網(wǎng)易互娛AI Lab在國際人工智能頂級(jí)會(huì)議NeurIPS 2022 Neural MMO挑戰(zhàn)賽中，包攬了所有賽事指標(biāo)的第一名，以總分領(lǐng)先第二名129%的優(yōu)勢奪得冠軍，擊敗了來自全球35個(gè)國家和地區(qū)的頂尖隊(duì)伍。

【資料圖】

比賽概況

近日，國際人工智能頂級(jí)會(huì)議NeurIPS 2022在美國新奧爾良落下帷幕，在本屆會(huì)議舉辦的Neural MMO挑戰(zhàn)賽中，網(wǎng)易互娛AI Lab從來自全球35個(gè)國家和地區(qū)的134支隊(duì)伍中脫穎而出，以領(lǐng)先第二名得分129%的巨大優(yōu)勢奪得冠軍，并強(qiáng)勢包攬了所有賽事指標(biāo)的第一名。這是網(wǎng)易互娛AI Lab研發(fā)的Athena AI在連續(xù)奪得多項(xiàng)國際冠軍后，再次登頂國際AI競賽，同時(shí)也是繼去年在NeurIPS MineRL挑戰(zhàn)賽上首次教會(huì)AI在《我的世界》中挖到鉆石后，連續(xù)兩年獲得NeurIPS競賽冠軍，彰顯了網(wǎng)易互娛AI Lab在人工智能領(lǐng)域的綜合技術(shù)實(shí)力。

本屆比賽由超參數(shù)科技、麻省理工學(xué)院、清華大學(xué)深圳研究院和AICrowd聯(lián)合舉辦，在今年的NeurIPS（Conference and Workshop on Neural Information Processing Systems）大會(huì)中舉行。該會(huì)議是人工智能領(lǐng)域最重要的學(xué)術(shù)會(huì)議之一，和ICLR、ICML并稱為機(jī)器學(xué)習(xí)領(lǐng)域的三大頂級(jí)會(huì)議。本屆比賽是Neural MMO系列挑戰(zhàn)賽的第三屆，由于新引入了裝備系統(tǒng)、交易系統(tǒng)和毒圈機(jī)制，且地形環(huán)境也變得更為復(fù)雜，因此比賽難度相較于前兩屆大幅提升。本屆比賽在兩個(gè)半月的賽程內(nèi)吸引了來自中國、美國、英國、法國、俄羅斯、加拿大、日本等世界各地的學(xué)術(shù)界和工業(yè)界的隊(duì)伍，其中包括網(wǎng)易、騰訊、嗶哩嗶哩、InstaDeep、twosense.ai、CVTE、清華大學(xué)、浙江大學(xué)、香港中文大學(xué)、波士頓大學(xué)、愛丁堡大學(xué)、京都大學(xué)等，也包括了上一屆Neural MMO挑戰(zhàn)賽的冠軍。

規(guī)則介紹

本次比賽所依托的環(huán)境Neural MMO最初由OpenAI于2019年發(fā)布，現(xiàn)由麻省理工學(xué)院繼續(xù)開發(fā)和維護(hù)，是一個(gè)用于大規(guī)模多智能體研究的平臺(tái)。Neural MMO的設(shè)計(jì)靈感來自于大型多人在線角色扮演游戲（MMORPG），模擬出了一個(gè)在廣闊且持續(xù)的環(huán)境中支持可變數(shù)量玩家互相競爭的大型生態(tài)系統(tǒng)。不同于Dota、星際爭霸等AI已經(jīng)取得領(lǐng)先人類水平的游戲場景，Neural MMO中的AI設(shè)計(jì)不光要考慮隊(duì)伍內(nèi)大量智能體之間的配合，還要考慮如何與其他十幾支甚至更多的隊(duì)伍進(jìn)行競爭。

本次比賽的場景中，一共有128個(gè)智能體，分成16支隊(duì)伍，每支隊(duì)伍由8個(gè)智能體組成。每位參賽者需要控制其中的一支隊(duì)伍在128x128大小的地圖上和其他15個(gè)參賽者的隊(duì)伍進(jìn)行對(duì)抗。比賽持續(xù)時(shí)間為1024步，智能體在每一步中可以同時(shí)執(zhí)行多種操作，如移動(dòng)、攻擊目標(biāo)選擇、攻擊類型選擇、背包物品使用、從市場上購買物品、出售物品并對(duì)其進(jìn)行定價(jià)等。智能體可發(fā)起的攻擊類型包括近戰(zhàn)攻擊、遠(yuǎn)程攻擊和魔法攻擊，三種類型為互相克制的關(guān)系。智能體還可以收集對(duì)應(yīng)的武器和彈藥來提升攻擊力，同時(shí)也可以收集頭盔胸甲等裝備來提升的防御力。比賽開始后，每支隊(duì)伍會(huì)隨機(jī)出生于地圖邊緣，隨著比賽進(jìn)行，逐漸縮小的毒圈會(huì)迫使所有智能體向地圖中心聚集，爆發(fā)更加激烈的對(duì)抗。每個(gè)智能體除了需要補(bǔ)充收集食物和水以保證基本生存外，還需要考慮很多復(fù)雜的長期決策問題，例如遇到敵人時(shí)判斷是進(jìn)攻還是逃跑、隊(duì)友遇到危險(xiǎn)時(shí)自己應(yīng)該馬上趕去幫忙還是繼續(xù)擊殺附近的NPC、如何找到進(jìn)圈通道、背包裝滿后到底是賣掉彈藥還是賣掉回復(fù)藥水等等。

最終戰(zhàn)況

比賽最終的排名由參賽隊(duì)伍之間互相對(duì)抗（PvP）決定，每支隊(duì)伍的得分由生存分和擊殺分兩部分組成，其中生存分主要根據(jù)隊(duì)伍內(nèi)存活到最后的智能體數(shù)量決定，存活的數(shù)量越多得分越高，而擊殺分則是根據(jù)全隊(duì)擊殺敵方智能體的數(shù)量乘以0.5計(jì)算得到。來自網(wǎng)易互娛AI Lab的隊(duì)伍realikun在最終的PvP對(duì)抗中以8.86的生存分、19.18的擊殺分，總分28.04分奪得冠軍，分?jǐn)?shù)甚至超越了第二三名的得分總和。值得一提的是，PvP環(huán)節(jié)中最初還額外設(shè)置了兩個(gè)特別獎(jiǎng)項(xiàng)，分別為坦克獎(jiǎng)——用于獎(jiǎng)勵(lì)場均承受傷害最高的隊(duì)伍，和打錢獎(jiǎng)——用于獎(jiǎng)勵(lì)每局平均獲得金錢數(shù)量最多的隊(duì)伍。比賽初期大家普遍認(rèn)為注重生存和擊殺方面的隊(duì)伍是難以承受更多傷害或是獲取更多金錢的，獎(jiǎng)項(xiàng)的設(shè)立旨在鼓勵(lì)比賽中涌現(xiàn)出更加多樣化的策略。但從PvP的結(jié)果上看，網(wǎng)易互娛AI Lab最終同時(shí)包攬了生存、擊殺、打錢、承傷所有四項(xiàng)賽事數(shù)據(jù)的第一名。

Final PvP 排行榜

另外比賽還設(shè)置了兩個(gè)PvE環(huán)節(jié)，用于幫助選手們?cè)赑vP前能有一個(gè)穩(wěn)定的評(píng)估智能體水平的環(huán)境。網(wǎng)易互娛AI Lab也同樣分別以63.50分和25.35分的分?jǐn)?shù)大幅領(lǐng)先其他隊(duì)伍占據(jù)榜首。在PvE Stage 1中，智能體需要同其他15支隊(duì)伍共120名由規(guī)則控制的智能體進(jìn)行對(duì)抗，網(wǎng)易互娛AI Lab在保證獲得最高生存分的情況下，每場平均擊殺了其中107名敵方智能體。在PvE Stage 2中，其他15支隊(duì)伍的智能體由主辦方訓(xùn)練的神經(jīng)網(wǎng)絡(luò)控制，強(qiáng)度相較于上一階段大幅提升，但網(wǎng)易互娛AI Lab在第二階段發(fā)布后僅用六天時(shí)間就達(dá)到了Top1 ratio 1.0（在每場16支隊(duì)伍中排名第一的概率為100%）的成績，并一路占據(jù)榜首至比賽結(jié)束。

PvE Stage 1 排行榜

PvE Stage 2排行榜

方案介紹

本次比賽中，網(wǎng)易互娛AI Lab整體采用了深度強(qiáng)化學(xué)習(xí)和規(guī)則相結(jié)合的方式構(gòu)建Neural MMO版Athena AI智能體。其中強(qiáng)化學(xué)習(xí)部分使用了PPO（近端優(yōu)化算法）在CTRL（Centralized Training based Reinforcement Learning）模式下進(jìn)行自博弈訓(xùn)練，主要控制智能體在移動(dòng)、選敵、補(bǔ)給道具的使用和交易這些方面做出決策，同時(shí)使用基于規(guī)則的方法控制了攻擊方式、非補(bǔ)給道具的使用和交易、出價(jià)等，這樣設(shè)計(jì)是因?yàn)椋?/p>

1.Neural MMO中攻擊方式涉及到智能體的職業(yè)成長，一旦選擇一種主戰(zhàn)攻擊類型后再更換其他攻擊方式收益較低；

2.使用盔甲、武器等非補(bǔ)給品也沒有涉及到太過復(fù)雜的時(shí)機(jī)選擇問題；

3.交易行為中尤其是出價(jià)所包含的動(dòng)作空間巨大，讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到正常的交易行為所需的訓(xùn)練代價(jià)遠(yuǎn)遠(yuǎn)超過移動(dòng)、攻擊等，但是對(duì)于最終智能體的強(qiáng)度提升卻十分有限，因?yàn)樵贜eural MMO中取得勝利最為關(guān)鍵的要素是團(tuán)隊(duì)配合，而智能體之間的配合在很大程度上并不是依靠交易來完成的。

針對(duì)復(fù)雜的游戲機(jī)制，網(wǎng)易互娛AI Lab也相應(yīng)地為Athena AI設(shè)計(jì)了精細(xì)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。如圖所示，網(wǎng)絡(luò)主要由特征編碼器、隱變量交互結(jié)構(gòu)以及動(dòng)作解碼器三部分組成，其中隱變量交互結(jié)構(gòu)中的Transformer和LSTM兩大模塊占據(jù)了整個(gè)網(wǎng)絡(luò)的絕大部分參數(shù)量。隊(duì)伍中每個(gè)智能體均由參數(shù)相同的一份網(wǎng)絡(luò)副本所控制，網(wǎng)絡(luò)根據(jù)不同的輸入而使每個(gè)智能體做出各自的決策。

神經(jīng)網(wǎng)絡(luò)架構(gòu)圖

特征編碼器將每個(gè)智能體的生命值和等級(jí)之類的標(biāo)量特征、周圍地圖信息、歷史動(dòng)作信息、裝備信息、動(dòng)作掩碼以及游戲進(jìn)度等信息作為輸入，其中部分特征會(huì)經(jīng)過一些如ResNet的子編碼器進(jìn)行總結(jié)抽象后再和其他特征拼接輸出。

隱變量交互結(jié)構(gòu)是網(wǎng)絡(luò)的核心部分，其中Transformer結(jié)構(gòu)將每個(gè)智能體同其他友方單位、敵方單位和NPC利用自注意機(jī)制進(jìn)行充分的特征交互，是增進(jìn)智能體團(tuán)隊(duì)配合能力的重要組件，而LSTM結(jié)構(gòu)通過引入歷史特征進(jìn)行交互，從一定程度上解決了Neural MMO中部分可觀測的問題。

動(dòng)作解碼器將LSTM的輸出分別映射為四種動(dòng)作的選擇，包括移動(dòng)、目標(biāo)選取、裝備使用和售賣。四種動(dòng)作均通過PPO分別獨(dú)立優(yōu)化。此外訓(xùn)練過程中還會(huì)將所有智能體的LSTM輸出經(jīng)平均池化后映射為一個(gè)聯(lián)合的價(jià)值估計(jì)，使智能體具有團(tuán)隊(duì)意識(shí)。

此外為了進(jìn)一步增強(qiáng)團(tuán)隊(duì)配合以及歷史信息的使用，網(wǎng)易互娛AI Lab將表示智能體視野的二維特征大小從15x15擴(kuò)充至了25x25，擴(kuò)充的部分由來自隊(duì)友的視野以及過去探索得到的信息進(jìn)行填充，同時(shí)在原有的地形信息上，還額外設(shè)計(jì)了足跡、戰(zhàn)爭迷霧、毒圈信息等共計(jì)7個(gè)通道增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力。

作為ResNet輸入特征的7個(gè)通道

網(wǎng)易互娛AI Lab使用了自研的分布式深度強(qiáng)化學(xué)習(xí)框架進(jìn)行Athena AI的訓(xùn)練，該框架不但訓(xùn)練高效，也能支持同時(shí)模擬和數(shù)百種不同風(fēng)格的對(duì)手進(jìn)行對(duì)戰(zhàn)的場景，因此能夠在此次比賽中面對(duì)各種未知對(duì)手的情況下穩(wěn)定取勝。相較于其他參賽隊(duì)伍，網(wǎng)易互娛AI Lab的智能體也表現(xiàn)出了更加多樣的策略，例如吃雞類游戲中玩家經(jīng)常使用的卡圈、堵圈以及借助地形完成十字圍殺等高級(jí)戰(zhàn)術(shù)。

值得一提的是，本次比賽中大部分隊(duì)伍都會(huì)攜帶工具和彈藥，分別在智能體靠近資源點(diǎn)時(shí)或接近敵方智能體時(shí)使用。得益于自研框架強(qiáng)大的平衡性測試功能，網(wǎng)易互娛AI Lab發(fā)現(xiàn)由于每種等級(jí)的彈藥和工具都會(huì)占用一格物品欄，但由于Neural MMO中數(shù)值設(shè)計(jì)的原因這些道具帶來的提升十分有限，導(dǎo)致在和敵方智能體對(duì)拼時(shí)反而會(huì)因?yàn)闆]有攜帶足夠的補(bǔ)給品率先陣亡。而每件補(bǔ)給道具雖然也要單獨(dú)占用一格物品欄，但是能提供非?？捎^的回復(fù)能力。于是在比賽后期，網(wǎng)易互娛AI Lab大膽地放棄了比賽中主流的裝備選擇策略，轉(zhuǎn)而讓智能體攜帶更多回復(fù)道具，大幅提升了生存能力。

展望未來，我們相信AI技術(shù)可以讓MMO中的每一個(gè)游戲角色都擁有與真實(shí)世界邏輯更相符合的行為舉止，而通過Neural MMO這個(gè)試驗(yàn)場我們也欣喜地看到了AI不僅能夠掌握基本的資源獲取、裝備選擇，也能借助地形完成十字圍殺、卡圈、堵圈等高級(jí)戰(zhàn)術(shù)，相信在不遠(yuǎn)的未來我們就能看到AI技術(shù)在MMO或是其他品類游戲中的更多應(yīng)用。

關(guān)于互娛AI Lab和Athena AI系統(tǒng)

網(wǎng)易互娛AI Lab成立于2017年，隸屬于網(wǎng)易互動(dòng)娛樂事業(yè)群，是游戲行業(yè)領(lǐng)先的人工智能實(shí)驗(yàn)室。AI Lab所提供的人工智能服務(wù)包括計(jì)算機(jī)視覺、自然語言處理、語音信號(hào)處理、游戲AI多個(gè)方面。目前技術(shù)已應(yīng)用于網(wǎng)易互娛旗下多款熱門游戲，如《夢幻西游》、《哈利波特：魔法覺醒》、《陰陽師》、《大話西游》、《荒野行動(dòng)》等等。

Athena AI是互娛AI Lab研發(fā)的游戲AI系統(tǒng)，應(yīng)用了前沿的模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、進(jìn)化學(xué)習(xí)算法實(shí)現(xiàn)游戲中的競技對(duì)戰(zhàn)，友好陪玩，平衡性測試等AI需求。目前已落地《夢幻西游》《哈利波特：魔法覺醒》《荒野行動(dòng)》《顛峰極速》《決戰(zhàn)！平安京》《指環(huán)王》《百聞牌》《網(wǎng)易棋牌》《超凡先鋒》等多款游戲，涵蓋棋牌、RPG、SLG、體育、卡牌、TPS等多種類的游戲。

參考資料：

[1]NeurIPS 2022 The Neural MMO Challenge 比賽主頁

[2]Neural MMO: A Massively Multiagent Game Environment, OpenAI blog

[3]The Neural MMO Platform for Massively Multiagent Research

[4]Neural MMO: A massively multiagent game environment for training and evaluating intelligent agents

[5]Neural MMO Decumentation

[6]Neural MMO GitHub Repository

[7]OpenAI開發(fā)AI版《文明》，一塊CPU就能重現(xiàn)AI生存戰(zhàn)爭史

[8]在游戲世界組建一支AI團(tuán)隊(duì)，超參數(shù)的多智能體「大亂斗」開賽

[9]讓AI小隊(duì)混戰(zhàn)跑毒經(jīng)商，還設(shè)“坦克獎(jiǎng)”，NeurIPS這比賽真不是打游戲？

[10]1000個(gè)教AI打電競的人

關(guān)鍵詞：人工智能夢幻西游