人工智能界的阿波罗 AlphaGo是如何学会下围棋的
2020-08-19 10:56:47AI云资讯1107
第一缕星火
人工智能领域取得了一项重要突破----一在围棋项目中,一个由谷歌研究团队开发的计算机系统AlphaGo击败了欧洲的顶尖职业棋手。在此之前,这个关于战略性和直观判断的古老东方竞技游戏,已经困扰了人工智能专家们数十年之久。
在大多数公认的智力游戏中,机器已经战胜了最优秀的人类,包括国际象棋、拼字游戏、黑白棋等等。但是围棋----这个有着2500年的历史,比象棋复杂得多的游戏,即使是面对最先进的计算机系统,顶尖棋手们也能保持优势。
本月早些时候,谷歌以外的人工智能专家质疑其是否能在短时间内实现突破,而就在去年,许多人认为机器在围棋项目上打败顶尖人类还需要再过十年。
但谷歌AlphaGo已经做到了这一点。
‘这一切发生的比我想象中快太多。’法国研究员雷米·库伦说。他的背后,是曾经的世界最佳围棋AI,Crazystone。
AlphaGo系统
DeepMind计划自称为‘人工智能界的阿波罗’,于2014年被谷歌收购。在10月伦敦举办的这场人机比赛上,DeepMind的系统----一个更广为人知的名字‘AlphaGo’,在与欧洲围棋冠军樊麾的对弈中发挥出色,五局比赛未尝一败。比赛结果在《自然》杂志的编辑和英国围棋联盟代表的监督和见证下产生,事后《自然》杂志的编辑评价:这是我职业生涯中最激动人心的时刻之一,无论是作为一名学者还是作为一名编辑。

关于AlphaGo的论文发表在自然杂志,并登上封面
今天早上,《自然》杂志发表了一篇论文,描述了AlphaGo的系统,它巧妙地利用了一种越来越重要的人工智能技术,即深度学习。
通过输入收集到的大量人类棋谱,DeepMind的研究人员开始训练这个系统自己下围棋。但这仅仅是第一步。从理论上讲,这样的训练只会产生一个和顶尖人类一样优秀的系统(但这不能保证对人类的绝对优势)。为了打败最顶尖的人类,研究人员让这个系统进行自我间对弈。这使得系统自身又可以产生一系列新的棋谱,基于新棋谱训练出的新人工智能,有着超越人类大师的能力。
‘这其中最重要的方面……是AlphaGo不仅仅是一个手动规则构建下的专门系统,’负责DeepMind监督的戴密斯·哈萨比斯说,‘相反,它还使用通用的机器学习技术来赢得胜利。’
穷举与剪枝
早在2014年初,库伦的围棋程序Crazystone就挑战了日本的职业棋手依田纪基并获得了胜利,但有一点需要声明----这是AI在受让四子的情况下。在围棋中,这代表着开局的巨大优势。当时,库伦预测,机器还需要10年的发展,才能在分先的情况下赢得顶尖棋手。
这项研究的难度在于围棋规则本身。
即使是功能再强大的超级计算机,处理能力也有极限,无法在给定任意的合理的时间内分析出棋盘中可行的每步棋着的变化。当深蓝在1997年战胜国际象棋冠军卡斯帕罗夫时,就是以这样的‘暴力’做到的。从本质上讲,IBM的超级计算机分析了当前可行的每一步棋的结果,这样的预测视野超越了人类棋手的极限。但在围棋中,这是不可能做到的。在国际象棋中,任意给定的回合平均约有35种可行的变化;而围棋--这种两个玩家在19×19的网格上以抛光的棋子互相对抗的游戏,有着约250种变化,并且每种都能生出另外的250种,依此类推,无法穷尽。就像哈萨比斯指出的一样:横盘上存在的变化比宇宙中的原子还要多。

在使用一种被称为蒙特卡罗树搜索的技术后,像Crazystone这样的系统能够脱颖而出,结合其他技术,系统可以缩小必须分析的步数的范围,最终他们可以战胜一些围棋高手----但不能战胜最顶尖的棋手。
局面形式判断
在顶尖棋手中,每一手棋更具直观性。棋手可能会告诉你,要基于盘中的棋形和局势来决定下一步棋着(棋手思维),而不是仔细分析盘上每个点可能的后续变化(系统思维)。‘好的选点看上去就觉得很棒,就像遵循着某种美学一般。’同时也是一名棋手的哈萨比斯说,‘历经数千年依然是一个迷人的游戏,或许这就是它的魅力所在。’

但是,随着2014年让步至2015年,包括爱丁堡大学团队,Facebook团队以及DeepMind团队在内的研究者们,开始将深度学习应用于围棋研究。这个想法是利用技术来模仿下棋时所需要的‘人类直觉’。‘围棋是隐式的,且都是模式匹配(一种算法)’哈萨比斯说:‘但这正是深度学习的优势所在。’
自我增强
深度学习依赖于所谓的神经网络----一种硬件和软件网络,类似于人脑中的神经元。这些神经网络并非依靠暴力计算或手动制定的规则来运作,他们分析大量数据以‘学习’特定的任务。将足够多的袋熊照片送入神经网络,它可以学习识别袋熊;给它‘投喂’足够多的口语,它可以学会辨认你说的话;‘投喂’足够的围棋走法,它就可以学会下围棋。

在DeepMind,研究人员希望神经网络可以通过‘看’盘中的选点来掌握围棋,就像人类在下棋时一样。这项技术反馈良好,通过将深度学习与‘蒙特卡洛树’方法结合,Facebook旗下的系统已经击败了一些人类玩家。
但DeepMind团队更加深入的执行了这个理念。当接受了3千万步人类棋着的训练后,DeepMind神经网络能以57%的概率预测下一手人类棋着,这是一个令人印象深刻的数字(此前的记录是44%)。在这之后,研究员们让该神经网络和与其自身略有不同的版本进行相互对弈,这被称之为强化学习。本质上来说,通过神经网络进行自我对弈,系统会追踪哪一手棋能够带来最大利益----在围棋中体现在获得最多的地盘。随着时间的增加,系统在识别‘哪些棋能带来利益,哪些不能’方面变得越来越完善。
‘AlphaGo通过其神经网络之间的数百万次相互对弈,日渐提高,最终学会了自己发现新的战略。’DeepMind的研究员西尔弗说。
据团队成员西尔弗的说法,这使得AlphaGo能够超越包括Crazystone在内的所有围棋AI系统。在这之后,研究员们将研究结果输入第二个神经网络,收集它通过自我对弈给出的建议棋着,神经系统便可以预见这之后的每一步的变化。这类似于较旧的系统(如深蓝)在国际象棋领域所表现出的一样,只不过AlphaGo系统在分析更多数据时,会不断进行自我学习并最终做到这一点,而非通过暴力的手段探索棋盘上所有的可能性。这样一来,AlphaGo不仅学会了击败现有AI程序,也能学会击败顶尖的人类棋手。
风雨欲来
在非公开场合打败了欧洲的围棋大师之后,哈萨比斯和他的团队旨在在公开论坛上击败世界顶尖棋手之一的李世石。
不久之后的三月,AlphaGo将在韩国挑战围棋世界冠军李世石。李世石是至今为止世界冠军数第二位的棋手,并在过去的十年里获得了最多的世界冠军。哈萨比斯将他视为‘围棋世界的费德勒’。
根据库伦等人的说法,战胜世界冠军将比战胜欧洲冠军樊麾更具挑战性。但是这次,库伦将赌注押在了一直以来的竞争对手----AlphaGo上。在过去的十年中,他一直尝试开发出能够击败世界最顶尖棋手的AI系统,现在,他相信这个系统就在眼前。
相关文章
- 受人工智能需求影响,英特尔消费级CPU产品或面临大规模涨价
- 北京人工智能产业联盟AI智能体专委会正式成立 共筑智能体产业协同创新生态
- 量子科技里程碑式跨越,微美全息深化“人工智能+量子”战略突破开启新局
- 攻坚数据智能核心技术 中国移动项目获国内人工智能领域最高奖
- 学而思“AI未来星・2026青少年人工智能科普活动”在京启动
- 从“校园大脑”到产教融合,WPS 365加速“人工智能+教育”数字化建设落地
- 科大讯飞与金光集团签约战略合作,携手推动印尼人工智能转型
- 北京人工智能大会首都信息分享“平台+模型+场景”AI+数据要素新范式
- 首都信息红藤办公平台亮相北京人工智能大会
- Rambus 推出行业领先的超以太网安全 IP 解决方案,赋能人工智能与高性能计算
- 中国联通与七家合作伙伴集中签约,国家人工智能应用中试基地(医疗)迎来里程碑式进展
- 点猫科技向七地捐赠春晚机器人AI实验室,共筑人工智能教育未来
- 三星HBM4高带宽内存正式进入英伟达Vera Rubin人工智能芯片平台
- 桔吉人工智能解锁代理记账AI、AI做账、AI会计,合规账智能新生态
- 以AI考试技术赋能,拓维海云天荣膺“2025人工智能骨干企业”称号
- 融梦科技参编两项团标正式发布——引领“人工智能+体育”跨领域标准化建设
人工智能企业
更多>>人工智能硬件
更多>>- 鲲鹏 为更先进的数智世界而计算——李义在鲲鹏伙伴峰会2026上的主题发言
- 拥抱赋能OpenClaw智能生态,此芯科技CIX ClawCore螯芯系列芯片震撼首发
- 机械革命硬核新品京东首发 耀世18Pro巨幕旗舰、无界14轻薄本开启预约
- 无折痕折叠旗舰引爆市场:OPPO Find N6首销日湖南门店现抢购热潮
- AMD锐龙 AI MAX+ 392 移动处理器加持 华硕天选Air 2026 锐龙 AI Max版开启高效学习
- 聚焦 COSP 户外展:BleeqUp 超影擎如何用 AI 眼镜重新定义户外运动交互?
- 一加 15T 搭载 LUMO 凝光影像系统,3.5 倍潜望长焦加持拍人拍景更出彩
- 技嘉 32 英寸 240Hz QD-OLED 电竞显示器 MO32U24 正式上市









