联系 投稿

廊新网-主流媒体,廊坊城市门户

腾讯“绝艺”9连胜横扫日韩AI,距世界冠军一步之遥(2)

2017-03-19 20:16:42     来源:新浪网

  同时,本届UEC杯对硬件配置也没有强制性要求,虽然要求参赛者必须报告机器功耗,但特别说明1000W以上的,可以通过特别许可。我们目前还不太清楚此次参赛的绝艺的硬件配置,但从之前野狐网一段时间内绝艺多个版本轮番测试的情况来看,腾讯在这方面无疑是花费了心思的。

  DeepZenGo此前被认为相比于AlphaGo,最大的劣势之一是它是单机版的。本次比赛对参赛AI是单机作战还是联网没有限制。主办方提供服务器和以太网接口,参赛者将自己的机器接入选定接口进行对局,IP由DHCP自动分配。也就是说虽然不能远程接入服务器参赛,但只要机器到达现场,通过现场单机转接服务器是不禁止的。不知道这次DeepZenGo是否还是单机作战,但这对于绝艺来说无疑是利好消息。

  AlphaGo转型,计算机下围棋意义何在?

  棋类AI最早基本都是基于蒙特卡洛树搜索(Monte Calro Tree Search, MCTS)来构建的,诸如Crazay Stone、DeepZenGo这样的围棋AI也不例外。研发者“将游戏中所有的可能性表示成一棵树,树的第N层就代表着游戏中的第N步。树的node数是随着树的深度成指数增长的,不考虑剪枝,每个node都需要进行估值。”

  新智元在去年AlphaG与李世石的人机大战时曾介绍过,围棋属于所有完全信息(perfect information)博弈。所有完全信息(perfect information)博弈都有一个最优值函数(optimalvalue function),它决定了在所有参与博弈的玩家都做出了完美表现的情况下,博弈的结果是什么:无论你在棋盘的哪个位置落子(或者说是状态s)。这些博弈游戏是可能通过在含有大约个可能行动序列(其中b是博弈的宽度,也就是在每个位置能够移动的步数,而d是博弈的深度)的搜索树(search tree)上反复计算最优值函数来解决的。在象棋和围棋之类的大型博弈游戏中,穷尽地搜索是不合适的,但是有效搜索空间是可以通过2种普遍规则得到降低的。首先,搜索的深度可能通过位置估计(position evaluation)来降低:在状态s时截取搜索树,将随后的子树部分(subtree)替换为根据状态s来预测结果的近似的值函数。这种方法使程序在象棋、跳棋、翻转棋(Othello)的游戏中表现超越了人类,但人们认为它无法应用于围棋,因为围棋极其复杂。其次,搜索的宽度可能通过从策略概率——一种在位置s时表示出所有可能的行动的概率分布——中抽样行动来降低。比如,蒙特卡洛法通过从策略概率p中为博弈游戏双方抽样长序列的行动来让搜索达到深度的极限、没有任何分支树。将这些模拟结果进行平均,能够提供有效的位置估计,让程序在西洋双陆棋(backgammon)和拼字棋(Scrabble)的游戏中展现出超越人类的表现,在围棋方面也能达到低级业余爱好者水平。

  “就在MCTS的发展似乎也要山穷水尽的时候,深度学习的发展让AlphaGo横空出世。但是仔细想想又不算是横空出世,Alphago的第一作者正是十年前最强的围棋程序CrazyStone的作者,是为MCTS发展做出了贡献的Coulom的学生,David Silver也是早在10年前就开始将强化学习运用在MoGo等程序中。可谓十年磨一剑。”

  AlphaGo 给围棋带来了新方法,它背后主要的方法是Value Networks(价值网络)和 Policy Networks(策略网络),其中Value Networks 评估棋盘位置,Policy Networks 选择下棋步法。这些神经网络模型通过一种新的方法训练,结合人类专家比赛中学到的监督学习,以及在自己和自己下棋(Self-Play)中学到强化学习。这不需要任何前瞻式的 Lookahead Search,神经网络玩围棋游戏的能力,就达到了最先进的蒙特卡洛树搜索算法的级别(这种算法模拟了上千种随机自己和自己下棋的结果)。同时AlphaGo也引入了一种新搜索算法,这种算法将蒙特卡洛模拟和价值、策略网络结合起来。

  AlphaGo之后,Crazy Stone、DeepZenGo等纷纷在自己的程序中加入了深度学习模块。最新推出的绝艺当然更是直接站在了巨人的肩膀上。深度学习之于围棋AI,就像是左右手互博。学习时间越长,也就是互博时间越长,AI的棋力就越强。以此为前提,绝艺的大公司背景能够保证其拥有比对手更多的训练数据和更强的计算能力,横扫UEC也就在情理之中了。

  2017年年初,AlphaGo升级版在网上对弈比赛中取得对人类棋手的全胜以后,曾经传出“不再下棋”的传言。不过也有消息称,今年4月,DeepMind 的围棋AI 程序将和世界第一柯洁进行一场终极PK。

  DeepMind的最终目标是开发通用的人工智能,从去年3月横空出世的AlphaGo到今年年初的Master,DeepMind 在围棋上的探索目的现在看来已经基本达到。从去年新闻报道DeepMind 用深度学习改进谷歌数据中心数据消耗,到今年频频发力智能医疗,DeepMind肯定不希望AlphaGo只是一只会下棋的“狗”。

  不论如何,也许这真的是最后一届UEC了。AlphaGo虽然不是直接诞生于此,但是围棋AI数十年的发展,无疑从人才、技术、思想方法等多方面滋养了AlphaGo诞生的土壤。

  如今,“国产AlphaGo”横扫UEC,围棋AI已经成为这一古老人类游戏的大魔王级玩家,而围棋AI的发展,又在反哺深度学习等人工智能技术的茁壮成长。在新智元昨天的头条文章中,我们特别介绍了AlphaGo的创造者DeepMind这一年来在人工智能的社会应用方面所做的工作。围棋AI的发展,确实攻破了人类最后的智慧堡垒,但它仍然是人类挑战自我极限和共同建设更美好社会之决心的佐证。