腾讯AI Lab x 王者荣耀：开放让AI+游戏想象力落地-爱云资讯

8月18日，王者荣耀「无限开放计划交流会」在深圳举办，这是一次「造梦之旅」的开始。

王者荣耀项目执行制作人黄蓝枭宣布启动天工计划，将王者荣耀的游戏玩法核心进一步向外界开放，推动游戏生态再一次进化。该计划将开放游戏中的地图、角色、剧情到关卡的编辑功能，外部工作室和个人自由创造全新玩法，并有机会上架到游戏与玩家见面，是两亿用户对想象力的表达。王者荣耀还会将游戏玩法和直播互动自由结合，如开发弹幕彩蛋和自定义玩法等直播互动新形式。

腾讯 AI Lab x 王者荣耀 x 高校

携手共建「AI+游戏开放平台」

腾讯 AI Lab 总监杨巍还介绍了基于王者荣耀的「AI+游戏」开放平台计划。以下为演讲全文，主要内容包括行业研究现状、主要研究技术方法与难点、腾讯AI Lab 的研究进展、联合王者荣耀研发「绝悟」的进程、及未来开放计划。

AI 研究近年成为国际科技公司必争之地。2016年，谷歌把公司未来发展战略调整为“AI First”，Facebook将AI视为发展核心，微软也在2017年提出“成为AI行业领先者”的新愿景。

而游戏是一块检验AI能力的试金石。AI 的两大划时代事件都与游戏相关，一个是1997年DeepBlue战胜国际象棋第一人，一个是2016年的围棋 AI AlphaGo战胜李世石。

那下一个里程碑在哪里？从顶级 AI 公司DeepMind、OpenAI到微软纷纷公布在星际争霸和Dota 2方向上的研究进展，答案不言而明：复杂策略游戏可能会是下一块宝地。

其实在游戏应用场景里，AI研究不算一个新鲜话题。几乎所有重要游戏中都有AI的身影，这从AI+游戏的技术发展阶段就能看出：

早期游戏中的AI，大部分是通过人工规则的方法来实现的，这类方法就包括了有限状态机和行为树。有限状态机的方法是定义有限的行为状态，通过判别条件来触发不同的状态转移。这个方法的优点是设计简单、容易实现，缺点在于随状态增多而急剧复杂。

行为树也是一个在游戏中比较常用的方法，它通过穷举所有行为作为节点，条件驱动下逐级遍历确定当前行为。这个方法的优点是逻辑清晰，容易拓展，缺点在于难以适应复杂行为，且实现拟人化非常困难。

近期的AI+游戏研究，大部分是基于深度学习的方法，主要包含两大类，一个是监督学习或模仿学习，一个是强化学习。监督学习是通过海量有标记的训练数据为基础，推导出行为预测函数。这个方法的优点在于能够模拟不同级别的目标行为，做到很好的拟人化。缺点在于过度依赖于数据，特别是标注数据的质量。

另外一类方法是强化学习，这种方法，通过构建奖励和惩罚刺激环境的角度出发，优化AI行为逻辑。这个方法的优点在不依赖已有数据并且能够探索出新的策略，甚至于超越当前人类的认知。

前面我们回顾了业界对AI+游戏的研发情况，那腾讯的进展如何？我下面会与大家分享。

如果 AI 能在此环境中学会类似于人的长期策略规划和协作能力，就代表着多智能体决策最高水准。正因为在挑战性和应用性的巨大价值，腾讯长期关注并持续投入科技来发展游戏，并成为了AI+游戏领域的先行探路者(3.660,0.01,0.27%)。

早在2016年，腾讯 AI Lab就已开始了AI+游戏的研究之路。我们当时研发的围棋AI「绝艺」相继在UEC杯、AI龙星战以及围棋人工智能大赛等顶级赛事中三次夺冠，并且成为中国国家队围棋训练专用AI。围棋AI的难点在于大规模离散决策空间探索，突破强化学习理论实践瓶颈，探索超过人类的优化策略。

2017年，「绝艺」之后，腾讯开始在星际争霸2这类RTS游戏中进行AI+游戏研究。与围棋相比，星际争霸2是一个不完全信息博弈场景，需在复杂连续的决策空间下进行面向长期决策的决策。到9月时，在AI仅在「星际争霸 II 学习环境」的多个小游戏上达到专业水平时，腾讯成为首个研发出能在「星际争霸 II」全场游戏中打败「开挂」内置 AI的智能体。

同一年，腾讯AI Lab还与王者荣耀展开了AI联合研究，并很快取得了喜人的成绩。策略协作型AI「绝悟」，寓意拥有绝佳领悟力的AI，在去年8月达到了王者业余顶尖水平，并在今年8月的王者荣耀世界冠军杯半决赛上通过了5v5赛区联队测试，达到电竞职业水平。「绝悟」还将能力快速从云端迁移到手机终端，其1v1手机版本「SUPEX战队」在今年8月的China Joy亮相，在2100多场顶级业余玩家体验测试中胜率达到99.8%。

除了RTS和MOBA类游戏，2018年我们还开始了3D FPS游戏类的AI研发，其难点在于对3D环境建模及感知实现视角的转换，移动寻人等系列难题。但有了先前经验，我们很快在与清华联合研究后夺得了FPS射击类游戏VizDoom AI竞赛历史上首个中国区冠军。

我想重点介绍在王者荣耀实验环境中研发的策略协作型AI项目「绝悟」。为什么选择在王者荣耀中进行研究？原因有几个：首先这是一个多人协作的游戏场景，它在设计上的高复杂度、高挑战性，满足了对高水平AI+游戏的研究需要；其次，王者荣耀团队提供了运行游戏的测试环境，帮助搭建和开发独立的研究平台，极大提升了我们的研究效率；第三，这款国民级游戏拥有众多粉丝，并且口碑优良，对普及和推广AI研究成果也至关重要。

作为一个典型的AI难题，AI在王者荣耀中的研发有几大难点：1）地图庞大且在在战场迷雾下部分状态不可观测，信息不完备，不存在最优策略；2）操作序列空间巨大，有高达10的20000次方种操作可能性（整个宇宙原子总数只有10的80次方），探索难度极大；3）对战在两个团队（每队5名玩家）展开，需多个智能体在竞争中配合协作；4）需要从大量、复杂、连续的即时决策到长期决策中不断博弈，一切以最终胜利为目标。通俗来说就是“局面复杂、信息不全、要深谋远虑又要快速果断”。

面对这个复杂的难题，我们在2018年的研究工作主要集中在模仿学习上。通过将复杂问题分层解决，我们在模型设计方面，将大局观和微操分层建模，同时，将观察到的视觉信息和宏观向量数据分开，模型上采用多模态的深度网络，通过学习职业选手历史上的数据，完成了第一个版本的「绝悟」，并在2018年的KPL秋季决赛上通过了业余顶级选手能力测试。

模仿学习帮助我们更加了解了这个游戏，但模仿学习的局限性也很明显，很难通过学习选手的数据而在能力上超越职业选手，因此，我们接下来开始探索强化学习的解决方案。相当于模仿学习，强化学习的建模上，我们采用了自主设计的One Model，通过一个模型来表达所有的英雄，从而能实现多智能体之间的通信协作；同时我们采用的白板学习，让智能体从0到1学习策略与操作，不再依赖于人类数据，这也相当于不用历史经验来限制智能体的探索；在强化学习框架的建设上，我们构建了一个能支持复杂游戏的超大规模强化学习框架，支持多机多卡GPU同步训练，CPU采用自研的前向推理框架来支持Agent快速自对战。自对战的速度最大可以达到1500万局/天；单张GPU卡的训练速度由原来1800样本/s提升到5000样本/s，简单来说，在这套自研的强化学习平台上，AI对战一天，相当于普通玩家玩440年。

在8月初王者荣耀冠军杯特别环节中，这个AI模型也战胜了由职业选手组成的赛区联队，实现了从业余到职业的迈进。虽然有不错进展，但「绝悟」的研发还有一些问题尚未解决，我们还面临着诸多挑战，例如，在强化学习中多样性的探索、阵容打法BP规则博弈、多英雄扩展的迁移、强化学习和模仿学习之间模型蒸馏的问题等等。我们希望能开放资源与能力，与更多有兴趣的高校和学者来共同探讨和研究这些业界难题。

除了在科研方面的工作，AI也逐步应用到了王者荣耀的整个游戏环节之中，系统性地解决玩家游戏体验问题。

在玩法设计方面，AI参与了游戏中的超强人机（游戏内新玩法）和实战模拟（游戏内人机训练），都成为了王者荣耀游戏中的重要组成部分。「超强人机」每天对局峰值超过1千万，用户反馈评分也很高。在王者荣耀的对局环境优化中，也有AI一些贡献，比如在局中的审判系统中，通过对恶意玩家行为的建模来识别恶意行为，从而净化对局环境，实际效果上，我们也可以看到通过局中智能审判提醒，局后举报率显著降低；通过局后的智能审判，在恶意行为的审判成功率和准确率上，相比于之前的模型，都有明显的提升。在局后，通过AI技术的精彩场景自动剪辑，以及智能教学体系建设，也给玩家带来了非常多的体验乐趣。

今天，我们跟王者荣耀一起做AI开放计划，希望能做更好的产学研合作，共享新生态。在AI开放中，王者荣耀会开放游戏数据、游戏核心集群（Game Core）和工具，AI Lab会开放前面提到的强化学习、模仿学习的计算平台和算力，希望高校与研究机构能够共同参与AI在王者荣耀的应用研究工作。同时我们也会定期举办相关能力评测，让平台变成科研工作者展示科研实力的舞台。除了科研，我们也会把新的研究成果，反哺到王者荣耀游戏当中，为游戏开发者提供更多AI能力，开发出更多、更新、更好的玩法。通过这推进产学研合作，建立AI+游戏领域算法研究、效果验证的标准，推动AI+游戏产业升级，推动人工智能研究的发展；同时，通过将AI能力反哺给游戏开发者，能推动更多玩法的升级，带来游戏行业的发展。

AI平台的高校开放计划，大致可以分为以下几个阶段，计划在2019年11月之前，提供AI开放平台，集合游戏数据、核心集群和计算能力，并邀请部分高校内部测试；2020年5月，全面开放高校测试，并且在测试环境上，支持1v1，5v5等多种模式；2020年12月，我们计划举办第一届的AI在王者荣耀应用的水平测试，来一起分享AI的研究成果。

AI+游戏的探索，是希望通过游戏的虚拟世界环境助力AI的研究，始于游戏，但不限于游戏。游戏AI的研究成果，短期看，可以给游戏行业、电竞行业带来直接的推动和帮助，同时，AI的研究成果，也可以应用到教育、医疗、农业等更多行业中去。长期来看，AI+游戏的研究，会推进AI的终极目标——通用人工智能问题的探索和发展。

腾讯AI Lab x 王者荣耀：开放让AI+游戏想象力落地

相关文章

人工智能技术

人工智能公司

人工智能硬件

人工智能产业