7月8日,2021世界人工智能大会腾讯王者荣耀展区上演了一场人类与AI的较量——王者荣耀电竞职业选手与AI战队“王者绝舞”的正面交锋。
最终,这场五局三胜制的比赛以AI 3:1获胜而告终。“AI真的太强了。”这位职业选手在败后表示,内心十分绝望。
赛后,《王者绝舞》技术总监杨光对媒体表示,AI的学习能力压倒性超越人类,AI一天的训练量相当于人类440年的训练量。
AI的胜利,和2017年AlphaGo战胜柯洁十分相似。那么,王者绝悟真的已经彻底超越人类了吗?作为AI,王者绝悟和AlphaGo,甚至其他游戏AI,到底有什么区别?王者绝悟存在的价值又是什么?
7月14日,红星新闻记者联系到腾讯《王者启蒙》团队,他们讲述了《王者启蒙》背后的故事。
↑人与机器(图片由王者荣耀团队提供)
3:1
AI击败热门职业选手队伍
此次人与AI的较量,五位职业选手分别是成都AG.无痕、重庆QG.Hurt、陈圭、深圳DYG.小毅、武汉ES.诺言,均为本服人气职业选手。作为游戏AI,“王者绝舞”在游戏中上演着蹲草、来回拉扯输出、辅助团战等操作,在团队配合上颇有心得。
第一局比赛,职业选手出乎意料地选出了两个“神”字——干将莫邪和嬴政(正规比赛中一般只有一个“神”字),但“王者绝舞”毫不畏惧,轻而易举地拿下了第一局。
第二局比赛,职业选手们更加谨慎,选择了保守的阵容。但这依然挡不住“王者绝舞”的势头。在AI面前,职业选手们就像是人机。“王者绝舞”再次获胜。
第三局比赛,职业选手们再次更换阵容,针对性地优化英雄阵容,这次尝试非常有效,AI强大的算力也跟不上节奏,人类队最终赢了一局。
由于比赛阵容不允许和上一局一样,第四局比赛异常艰难。随着时间的推移,职业选手们渐渐疲惫不堪,但AI却依然精力充沛。第四局比赛,“绝舞王者”再次获胜。
至此,一场五局三胜的比赛,AI最终以3:1的比分提前结束了比赛。
一边是五位全国排名前十的职业选手,另一边则是五张空椅子。AI的胜利与2017年AlphaGo战胜柯洁十分相似。“AI真的太厉害了。”败北后,职业选手陈圭表达了内心的“绝望”。
↑5位人气职业选手(王者荣耀团队供图)
“启蒙王”是谁?
自 2018 年首次亮相以来,它一直在不断发展
腾讯“悟空之王”产品由腾讯AI Lab 和王者荣耀联合推出,展现了AI在人类生活场景中的想象空间。据介绍,2019年,“悟空之王”团队在接受媒体采访时表示,和业内所有研究机构一样,他们的目标是实现“通用人工智能”。
近日,《王者绝舞》技术总监、这支AI“梦之队”总教练杨光在赛后对媒体表示,AI的学习能力压倒人类,AI一天的训练量相当于人类440年的训练量。而且AI不受情绪、性格影响,合作门槛更低。那么,《王者绝舞》真的已经彻底超越人类了吗?
7月14日,红星新闻记者联系到腾讯《万王之王》团队,针对这一问题,团队方面表示,“《万王之王》历经多次迭代,目前已经进化为全英雄职业电竞级别的‘完整版’。”
从模仿人类的监督学习,到玩自我博弈的强化学习,我们可以通过以下几个重要的里程碑来完整理解“王者启蒙”的发展历程:
2018年12月,《王者绝舞》在KPL总决赛中首次亮相。该版本通过监督学习的方法模拟并学习了KPL职业选手的操作,达到了顶级业余水平;2019年,随着团队对深度强化学习、多智能体决策研究的不断深入,《王者绝舞》不再需要模仿人类数据,而是通过自我对战,进一步提升自身的微操水平和大局观,达到了王者荣耀职业电竞的水平;2020年,《王者绝舞》通过课程学习,学会了更多的英雄玩法;同年5月,它以40位英雄首次接受玩家的挑战。
目前,在《王者启蒙》的最新版本中,团队进一步引入了多轮组合赛和分层强化学习算法,即在比赛前和比赛中进行了针对性的优化,提升其整体能力和战术对抗水平。
独特优势?
人类比人工智能更擅长扮演露娜和其他英雄
在比赛之前,也就是我们熟悉的BP阶段(也就是BAN/PICK,指排名赛中禁用和选择英雄的阶段),《王者启蒙》不仅会考虑双方当前阵容的胜率,还会长远为后续比赛“存招”,以最大化多轮比赛的胜率。
游戏中你可以通过自我游戏学习,提升自己的宏观战术策略和具体的微操水平,在保持高强度微操能力的同时,针对敌方不同战术,如五人抱团、四一分推、gank入侵等战术做出更合理的应对。
不过,虽然已经进化成了拥有职业电竞水准全英雄的“完美形态”,但团队认为《王者启蒙》在人数、操作等方面并没有什么独特的优势。
一方面,AI对英雄的状态参数没有额外加成,与人类玩家相同;另一方面,AI在视野观察上与人类玩家一致,战争迷雾中AI无法看到隐形单位;最后,AI的操作反应在客观上也受到限制,其反应分布和均值与KPL职业选手差不多。从实际观察来看,人类在玩露娜等英雄方面要比AI更胜一筹。
与“AlphaGo”不同
《王者启蒙》算法更有挑战性
大家经常提到的AlphaGo,是第一个击败人类职业围棋选手、第一个击败围棋世界冠军的人工智能机器人,由谷歌旗下DeepMind的Demis Hassabis领导的团队开发,主要工作原理就是“深度学习”。作为AI,“王者绝地”和“AlphaGo”,甚至其他游戏中的人工智能,到底有什么区别呢?
↑比赛现场(王者荣耀团队供图)
《王者启蒙》团队认为,与其他游戏不同,《王者荣耀》是一个信息不完全的复杂游戏。“比如围棋这样的游戏,大家一眼就能看清全局,是一个完全信息游戏。而在《王者荣耀》中,玩家只能看到地图的一部分,还有草丛等隐藏空间。在这样的前提下,《王者启蒙》要快速准确地做出一系列复杂的决策操作就更加困难了。”
直观来讲,王者荣耀的游戏复杂度到底有多高?首先,游戏中的英雄非常多,总共超过100个,而且阵容组合爆炸式增长,达到10-15种可能,而不同的组合在能力和打法上差异很大。其次,游戏中的状态和行动空间复杂,AI在策略规划、目标选择、技能应用、路径探索、团队协作等方面都面临着大量不间断的即时选择。“我们估计,一场游戏中AI可能的操作多达10的2万次方种,而整个宇宙的原子总数也只有10的80次方种。”团队介绍,在如此巨大的计算空间中,做出高效精准的决策,对算法来说是一个巨大的挑战。
超越人类?
职业选手不服气:下次打败AI!
回到比赛现场,在赛后采访中,职业选手们也感受到了AI“悟道王”的强大。“AI真的太厉害了,总是做出异于常人的反应,让我们无法抵挡。”第二次与“悟道王”交手的选手陈圭感受到AI的配合比上一次更加默契。
那么,“如果还有下一次,你愿意‘报复’吗?”现场解说员问道。
职业选手回答:“下次打败AI!”
除了职业选手,AI“武林王”也吸引了不少游戏玩家的关注。有人认为AI不过是人形机器,没什么好怕的。不过,在观看比赛后,不少玩家的态度发生了转变。
正如五年王者荣耀玩家小曾所感受,AI的技能控制精准度、高超的生命值计算、技能躲避、不受心态影响等都是职业选手难以做到的。同时,AI的思维是统一的,就像AI是1人操控5个人,而职业选手有5个人的思维,思维不一致的他们如何应对思维完全一致的《绝舞》?此外,AI在数据库中记录了大量高手对局,这样它才能不断重复学习,强化自己。小曾认为:“未来随着AI技术的提升,学习的深入,彻底超越人类是必然的。”
↑比赛现场(王者荣耀团队供图)
未来价值?
不是为了打败人性而是将其运用到生活中
说到底,人类还是喜欢跟人类一起玩的,甚至有人觉得跟AI一起玩跟玩单机游戏没什么区别。那么,《王者启蒙》的存在价值到底是什么呢?
从玩家角度来看,团队认为“王者启蒙”在以往的重要节点以活动的形式出现在游戏中,确实让广大用户体验到了AI的最新进展与魅力。
从更长远的角度看,《王者绝舞》的研究是让AI在王者这种复杂状态策略游戏的环境中,能够学习到类似人类的长期战略规划和多智能体协同决策。随着团队对相关课题研究和积累的不断深入,《王者绝舞》的能力也将转移到其他类型的游戏中。如今,《王者绝舞》已经拥有了数个兄弟,可以应用于足球、FPS、RTS等游戏,并达到了国际领先水平。
“王者启蒙”能够从0到1不断学习进化,发展出合理的行为模型。长远来看,团队希望过程中的经验、方法和结论能在更多不同的场景带来更深远的影响,比如医疗、制造业、无人驾驶、农业和智慧城市管理等。
与此同时,科研教育的价值也不容忽视。据悉,腾讯AI Lab与王者荣耀还联合打造了“启蒙”AI+游戏开放平台,将腾讯在算法、脱敏数据、算力等方面的优势开放给学术研究人员和算法开发者。去年,腾讯举办了首届启蒙AI学术交流赛,来自国内18所知名高校的学生参赛并取得不俗成绩。第二届大赛将于今年下半年举办,希望能为人工智能教学和科研提供帮助。
事实上,AI的目的并非在游戏中战胜人类,而是最终通过日益复杂的游戏训练,解决现实生活中的问题。(红星新闻 戴佳佳)
评论(0)