AlphaGo新版本问世：自学40天就能胜赢柯洁的版本

当前位置: 主页>新聞>科技资讯>AlphaGo新版本问世：自学40天就能胜赢柯洁的版本

AlphaGo新版本问世：自学40天就能胜赢柯洁的版本

日期:2017-10-19

网易科技讯 10月19日消息，专注于推进人工智能（AI）研究的谷歌子公司DeepMind今天发布了一款新版本的AlphaGo程序，它能通过自学玩转多种游戏。这套系统名为“AlphaGo Zero”，它通过一种名为“强化学习”的机器学习技术，可以在与自己游戏中吸取教训。

仅三天时间，AlphaGo Zero自行掌握了围棋的下法，还发明了更好的棋步。这期间，除了被告知围棋的基本规则，它未获得人类的帮助。随着AlphaGo Zero被不断训练时，它开始在围棋游戏中学习先进的概念，并挑选出一些有利的位置和序列。

经过三天的训练，该系统能够击败AlphaGo Lee，后者是去年击败了韩国选手李世石（Lee Sedol）的DeepMind软件，胜率是100比0。。经过大约40天的训练（约2900万场自玩游戏），AlphaGo Zero击败了AlphaGo Master(今年早些时候击败了世界冠军柯洁)。

旧版AlphaGo接受的训练是，观摩由实力强大的业余或专业棋手对弈的海量棋局。但AlphaGo Zero没有获得这样的帮助。它自我对弈数百万次，并从中学习。一开始，它只是随意把棋子放在棋盘上，但后来它发现了获胜的策略，棋艺就快速提升了。

AlphaGo的首席研究员大卫·席尔瓦(David Silver)表示，“由于未引入人类棋手的数据，AlphaGo Zero远比过去的版本强大，我们去除了人类知识的限制，它能够自己创造知识。”

AlphaGo Zero通过“强化学习”这一程序来积累技能。当AlphaGo Zero走出一步好棋，它更有可能获胜。若这步棋没走好，它输棋的概率变大了。

这一程序的核心是一组连在一起形成人造神经网络的 “神经元”。对于棋局的每个回合，神经网络会观察棋子在棋盘上的位置，并推算接下来的棋步以及这些棋步让全盘获胜的概率。每次对弈后，它会更新神经网络，让棋艺更精进。虽然性能远胜于以前的版本，但AlphaGo Zero是一个更简单的程序，掌握棋法的速度更快，接受训练的数据更少，使用的电脑更小。席尔瓦表示，如果拥有更多的时间，AlphaGo Zero还能够自己学会围棋规则。

研究团队在《自然》杂志上发表的文章写道，一开始AlphaGo Zero的棋艺糟透了，后来它逐渐成为一名缺乏经验的业余棋手，最终进阶为围棋高手，能够走出极具战略性的棋步。这些进步仅花费了几天时间。最初10小时内它就发现了一个定式。随后不久它又领悟了一些棋法。三天后，AlphaGo Zero发现了人类专家正在研究的全新棋步。有趣的是，程序在发现更简单的棋步之前就早已掌握了一些复杂棋步。

【文章评论】【收藏本文】【打印本文】【论坛讨论】

·老人输入年轻血液或能延缓衰老但伦理问	·阿尔法狗之父：AlphaGo Zero 3天走完千年
·全球机器人产业规模越来越大但谷歌把机	·孙正义可能拿出100亿美元入股Uber:要老股
·趣店赴美上市，我们在招股书里发现了这些	·腾讯：阅文已就分拆及独立上市提交聆讯后

文章评论：(0条)

点击查看所有评论好亚论坛

责任编辑：好亚网声明：刊登此文章是为了传递更多信息,文章内容仅供参考,转载请注明出处。