现实世界的训练场 AI深度强化学习何时走出游戏？-爱云资讯

继一年前在“单挑”战胜全球顶级DOTA 2选手Dendi之后，OpenAI机构开发的AI系统于8月6日再下一城，在存在少量限制的条件下击败了由欧美DOTA 2主播以及职业选手代表人类玩家临时组成的队伍，五名玩家的平均实力超过了全球99.95%的DOTA 2玩家。

DOTA是一款在全球火爆了超过10年的电子竞技游戏，最多允许10名玩家操作10个不同的“英雄单位”进行5V5比赛。每年围绕该游戏举办的“DOTA 2国际邀请赛（简称TI）”也一直是全球奖金额度最高的电子竞技比赛，从2011年的TI 1至2017年的TI 7，其奖金额度从160万美元提升至2500万美元。

OpenAI是一家成立于2015年底的非营利人工智能研究公司，包括Elon Musk在内的投资人在成立之初承诺投资额达到10亿美元。OpenAI的DOTA 2 AI最早于2017年3月完成第一个强化学习成果，直至6月份才第一次击败了DOTA 2入门级玩家，但到了2017年8月的TI比赛期间，OpenAI在1V1表演赛中完胜了6名顶级职业玩家。

此次比赛之后，Elon Musk表示：“OpenAI首次在电子竞技中击败世界顶级玩家，这远比围棋等更复杂。”其后不久，OpenAI又在难度远远超过1V1比赛的5V5比赛中取得进展，于2018年6月首次战胜业余玩家。OpenAI的目标是参加即将举办的TI8赛事，不过，OpenAI在官网表示并没有必胜信心。

深度强化学习 “偏爱”游戏

2013年，DeepMind公司发表了Deep Q Network，并在Atari游戏中取得了超越人类专家玩家的表现，这种结合了深度学习、强化学习的深度强化学习（DRL）开始成为人工智能在连续、动态、复杂场景中的主流算法。发生几个月之后，Google以6亿美元收购了这家初创公司。

与语音识别、人脸识别中的深度学习算法不同，深度强化学习主要应用于各种连续空间、连续动作场景中的决策控制，且被视为实现通用人工智能的一条康庄大道。

Alpha GO是目前深度强化学习算法中第一个被广为人知的成就。而在Alpha Go掀起人工智能热潮之后，游戏圈玩家就开始讨论“人工智能是否能战胜游戏玩家？”结论几乎一边倒，玩家普遍关注“AI没有任何延迟的反应速度”、“对于技能、距离的把握”、“每秒操作速度远超选手”等等机器特点。

但事实上，科技巨头反而会抛弃这些优势。比如，OpenAI在DOTA 2中将机器人的“地图视野”、“每秒操作数APM”、“反应速度”均设定为玩家正常水准，重要的是，让AI能够学习到像玩家一样的“决策能力”，并且依靠决策、推理取胜。

在2017年的1V1表演赛期间，OpenAI的机器人通过与顶尖选手对决，学会了“残血勾引”、“反勾引”、“卡视野”等细节战术，甚至，机器人还能开发出玩家从未使用过的冷门战术。此外，微软公司也通过目前最畅销的游戏《我的世界》去训练人工智能，大部分自动驾驶企业通过《侠盗猎车手》游戏去训练人工智能的停车、应变能力。

不过，游戏中的AI虽然创造了诸多“刷屏”的进展，但也同样会暴露目前AI的瓶颈。2016年11月，暴雪公司宣布与DeepMind达成合作，基于《星际争霸 Ⅱ》研发人工智能。一方面，由于星际争霸游戏中需要操作的单位多达数十、上百个，而且DeepMind选择通过2D图像识别游戏数据，难度均远高于OpenAI，这使得DeepMind目前仍无法研发出一个可以与玩家进行对抗、比赛的AI。而DeepMind认为，要实现这一点，“仍需要在深度强化学习算法及相关领域再次取得突破。”

“《星际争霸游戏》蕴含了当下人工智能在认知决策层面还没有很好解决的问题：在不完全信息下如何做推理与规划、多智能体协作完成复杂任务、短中长期收益平衡等。相比人工智能下围棋这样的完全信息博弈，星际争霸的决策空间要更大，决策时机更复杂。”启元世界创始人兼CEO袁泉如是向记者分析，启元世界是一家新成立、致力于认知决策智能技术的公司。

从游戏到现实

在游戏中训练AI，公认是模拟现实世界最有效的方法。游戏正在以非常接近现实世界、真实经历和真实数据的方式，加快人工智能创新的步伐。

“在现实场景中，如果要采集和标注训练样本，所消耗的人力、物理成本太大，效果也不一定理想，而在游戏场景下，可以比较容易虚拟和构造、获取各类场景样本，容易对AI算法进行大规模训练和测试。”复旦大学计算机科学技术学院教授张文强如是告诉21世纪经济报道记者，张文强曾带领团队在虚拟场景下采用深度强化学习算法训练机械臂抓取动作。

该实验采用的控制算法已经相对稳定，但强化学习的样本和对应控制需要大规模的数据支撑，而在学校实验环境中没有充分的数据，构建训练所需场景的难度较大。

数据、样本不足，这是目前大部分人工智能训练的通病。Google大脑机器人团队软件工程师Alex Irpan曾指出目前深度强化学习的部分缺点，首先就是“样本利用率非常低”，为了让AI表现达到优秀程度需要极为大量的样本、数据进行训练。

但事实上，除了游戏、电商、互联网广告之外，绝大多数行业难以获取足够的数据进行训练，这也就意味着，缺少足够训练量的AI很难达到让人满意的表现。

不过，偏爱游戏的AI巨头也在游戏中寻找解决办法。2017年3月，DeepMind发表文章，称已经可以实现让AI同时一次学习多款游戏，正在朝着“迁移学习”迈进。迁移学习指就是从一种行为环境模式中学到东西之后可以用在另一种模式中，这是当前AI研究的一个热点。

目前，AI行业存在一大通病，针对猫开发的图像识别AI无法识别狗、普通话的语音识别系统无法听懂方言、针对一种病情研发的AI对另一种病情束手无策。而实现迁移学习之后，识别猫的AI同样能识别狗，普通话语音识别只需要极少量的方言训练就可以精通方言。同样，在游戏、虚拟场景中获得优秀表现的自动驾驶、机械控制AI，在经过少量的训练之后，在现实世界中也能取得同样的表现。

但目前，星际争霸的AI才刚刚起步，DOTA 2玩家如果针对OpenAI使用正常游戏中不会出现的“招数”则容易击败AI。这也就意味着，AI的决策、判断在遇到突发情况时难以做出可靠的判断。现实世界对可靠性的要求要远高于游戏，AI的决策短期内很难走出游戏。

现实世界的训练场 AI深度强化学习何时走出游戏？

相关文章

人工智能技术

人工智能公司

人工智能硬件

人工智能产业