科学研究
李喆:AlphaGo——未来的围棋
概要:
新时代骤然到来。AlphaGo对棋界带来的生态变化,在2017年仍属酝酿之中。在这一年,许多变化已经开始显现,最终将会发展定型为何种形态,却非此时所能确知。身处其中,将眼前所见所思略作记述,便是本文之目的。
就技术水平而言,AlphaGo的V18版本已经达到了略胜于人类当代最顶尖棋手的水平,而AlphaGo-Master对人类顶尖棋手取得60战全胜,已明显大幅超出了人类棋手的水平。此后,AlphaGo在乌镇3:0完胜柯洁,并公布了55局自对弈棋谱。从棋谱上看,V18版本还有明显的人类棋谱痕迹,而Master之后则有很多全新的着法。本文挑选围棋AI的一些棋谱片段进行结合围棋技术、算法和思维的分析,展现以AlphaGo为代表的围棋AI的棋力强度和特征,反思人类思维与机器算法的同异,并探寻未来在围棋领域人机合作的可能路径。
一、棋手思维与围棋AI算法的同异
人机对弈,其本质是人类思维与AI算法的博弈。围棋是一个封闭的有限空间,但变化之多远非人力所能穷极。要想深入分析思维与算法之争,首先要回顾人类棋手思维的特征。
(一)逻辑与经验
面对围棋这样复杂的思维对象,人类通过几千年来的长期实践形成了一些综合的思维方法,这些方法与人类普遍的认识能力相符合。概而论之,经验和逻辑是其中最为核心的两种方法。所谓计算,其内涵即以此两种思维方法为核心。
1.逻辑。逻辑运算主要用于在人的能力限度内可以明确区分优劣的局面对象。例如:封闭的死活和对杀,大小明晰的官子,局部的手割分析等等。面对这些场景,人能够通过演绎的方式,明确地比对出对杀的要点、官子的次序以及局部的效率。其方法的核心在于找到明确的比对标准以便确定优劣,例如,死活对杀的比对标准是:哪个选点能够使己方达到或做活或杀棋的作战目标(在同样能达到目标的选点中,继续比对其他方面的利益)。官子的标准则是:哪种下法能够使己方的地域利益最大化,进而取得终局的胜利。手割分析则是较为高级的方法,其内容是假设变换次序以获得局部分析的逻辑条件,其标准是与基础图的效率对比。当然,在棋手的计算中,纯粹的逻辑运算是极少的,大部分都包含了经验的成分。
2.经验。在围棋世界中,经验分为两类。一类是个人的实践经验,一类是整体的历史经验。前者依靠弈者自己的对局、复盘等围棋训练,后者则是经过千年累积而成的一些常法定论。在一般的意义上,前者建基于后者之上。经验的作用,主要是处理难以量化的模糊局面。首先是形成棋感。棋感即使围棋中的直觉,包括对当前着手的直觉、对接下来的手段和变化的直觉、对全局形势的直觉等。在历史经验的累积下,还发展出了一套将经验转化为知识的体系,即所谓二元判断的体系,包括“虚实、厚薄、地势、阴阳、轻重、缓急”等等,这些是由经验累积总结而成的一套人类的认知体系,帮助弈者对模糊局面进行定义和分析。
早期的计算机围棋,逻辑运算是其中的重要部分。对于难以量化的局面,作者将人类的一些已有的围棋知识转化为机器语言输入软件,这种做法是当时在人工智能领域流行的“专家系统”在围棋上的应用。这种方法在当时取得了一定的成效,但很快就陷入了瓶颈。这一代围棋AI,以“手谈”为代表。
第二代计算机围棋,引入了“蒙特卡洛算法”,这同样是在人工智能领域取得了一些进展的算法。这种方法建立在概率论的基础之上,将对弈局面理解为一个有很多分支的、具有随机性质的搜索树。这种方法对于模糊局面的搜索处理相当有效,使得计算机围棋的水平大幅提升,达到了业余4-5段的实力。但这一方法也遇到了瓶颈,它缺乏类似于棋感这样的有效剪枝手段,以致于它的搜索树太广而无法深入精确计算。这一代围棋AI,以“CrazyStone”和早期的“Zen”为代表。
第三代计算机围棋,即以AlphaGo为开创者的围棋AI,其关键算法是引入了深度学习算法,并构建了一套适合于围棋应用的算法构架。本文记述之时,AlphaGo的创作团队DeepMind声明将会发布的关于围棋AI的新论文尚未面世,因此涉及到算法原理的分析仍以2016年1月发表于《Nature》的论文为依据。
毫无疑问,DeepMind团队于2016年1月发表的论文“Mastering the game of Go with deep neural networks and tree search”具有划时代的意义。到2017年上半年,效法此论文而达到职业水平的围棋AI已有4款以上。
(二)三要素
值得注意的是,AlphaGo的算法结构在一定程度上模拟了人类思维。人类在对弈中做出决策的过程大体上可分为三个要素:直觉、计算、判断。任给一个盘面,人类棋手会无意识地根据自身经验和印象形成棋感,这些棋感是整个计算的基础。职业棋手和业余爱好者的水平差异,很大程度上在于棋感的差距。
沿着这些棋感展开计算,是通常情况下的第二步。围棋中的计算与数学中的计算有所不同,它的特点在于模拟演算可能产生的变化,而非根据已有的数据计算出确定的结果。这就意味着,围棋中的计算主要是一种或然性的计算,而非必然性的计算,这一方面是因为对手的落子在本质上是不能为我们所完全预知的,另一方面是因为我们的模拟验算所凭借的由经验而产生的棋感是不能穷尽局面的。
第三点是判断,我们对计算得出的不同局面进行比较,从而最终能够选择导向更优局面的初始选点。局面判断的本质是对计算的简化,即算到一定程度时,后续的计算成本太大,难以为人力所及,此时我们停止后续的演算,而采取一些方法对局面进行判断。大体上,判断有量化和非量化两类方法。量化的方法即以点目和子效分析为主,常作用于较为稳定的局面;非量化的方法以知识和经验感觉为主,将模糊的局面用厚薄、虚实等概念来理解,进而帮助判断。这部分对模糊局面的判断是人类棋手较弱的环节,后文将以棋例对此进行分析阐述。
棋感、计算、判断,这是弈者面对棋局做出决策的三要素。非常有趣的是,与以往的围棋软件不同,AlphaGo的算法结构几乎完全复现了这三要素。神经网络中的策略网络(PolicyNetwork)基本上相当于人类的棋感,即盘上直觉;价值网络(Value Network)基本上相当于判断;传统的蒙特卡洛算法(MC)加上快速走子(Fast rollout)则充当了计算的功能。整个AlphaGo的架构在理论上可以理解为将神经网络和蒙特卡洛等算法工具结合为一个充分实现了对局决策三要素的系统。AlphaGo-Master的架构可能与AlphaGo-V18有所不同,但仍可能蕴含了这三个对局要素,只是具体的实现方式或有所优化。我认为,AlphaGo的成功,与它充分地实现了人类决策的整体结构相关。或者说,面对围棋这样不可穷尽的复杂对象,人和AI使用了类似的路径来尽可能解决问题。这既可能存有巧合的成分,又显然与AI是人类所创造有直接的关联。虽然,在另一个层面,这也只是人类理解AI的一种方式。
虽然三要素的结构基本一致,但人和AI在具体这三者的实现方式上有显著区别。这些区别的影响直接地反映在棋盘上,形成有趣的课题。以下选取棋例进行分析。
(三)棋例分析——地与势
取材自2017年第一届中信证券杯世界智能围棋人机对局,DeepZenGO执黑对孔杰九段+CGI,黑中盘胜。
DeepZenGo和CGI是本次世界智能围棋大赛的冠亚军,两者皆出师于AlphaGo的首篇论文。在这次比赛中,两款AI相互对阵一胜一负,实力相当,综合水平大约接近于AlphaGo-V18,略胜于人类顶尖棋手。赛事主办方举办的这次人机对局很有意义,是对即将到来的人机合作时代进行探索。对局过程中,孔杰九段有权随时查看CGI的推荐选点、胜率走势和变化图。在这局棋进行到如图局面时,出现了非常有趣的状况,展现了人类思维与AI算法的差异。
行至56手,右下的转换告一段落。根据当时的解说和局后的咨询,包括顶尖棋手在内的绝大部分职业棋手都认为此时白方局面不错,而包括DeepZenGo和CGI在内的所有强围棋AI都不约而同地认为黑方明显优势。大部分局面下,似乎一流棋手和强围棋AI的局势判断不至于差别如此之大,又由于此局有一流棋手亲身参与对局,使得此局尤其值得重视研究。
首先,我们来看人类棋手的判断方式。整个右边是地和势的转换,白棋以极高的效率净吃了右下原本属于黑棋的角,取得了三十目的实地。而黑方获得了外围的势力,其价值尚未可知。对于地与地的转换,人可以用量化的方式比较大小,而对于这种地势转换,量化分析失效,因为外势无法量化为目数。面对这种情况,人类常用的方法是子效分析,即对比局部的效率或每一手交换的效率来分析局面。
在这个局面,人类棋手通常会首先对右下角白方实地的效率进行分析。其分析方法,以简易的手割法为主,即去掉一些交换以分辨成空效率。例如,将黑方的3、9、13、37、55和白方的8、20、22、38、56这各五手棋去掉,根据经验可以看出,白棋右下的成空效率相当之高,几乎省略了近一手棋。在外围没有非常明显的大损的情况下,此局部的手割分析便足以使棋手得出白棋不错甚至是白棋优势的判断。
在对局中,从第34手开始就有可能算到此局面的最终形成,而最初的判断在那时应该已经做出。右下的高效吃角,一方面可以通过局部手割分析判断其有利,一方面可通过人类的对局经验来判断此局面吃角一方的实地利益足以抗衡黑方外势。基于这些原因,无论是选择了白方吃角变化的孔杰九段,还是讲解和观战的职业高手,以及局后咨询的许多一流棋手,都认为此时白棋局势很好,分歧只在白棋是“不错”还是“优势”。
然而无论是对局中的DeepZenGo和CGI,还是观战的其它强AI,都认为白方从34手开始吃角的结果明显亏损,至如图局面,已经是黑棋明显优势,如DeepZenGo认为黑方胜率达到了65%。差异只在优势反映在胜率上的幅度,越强的AI,优势的胜率幅度越大。
人与AI对这个局面的判断差异如此显著,并非是偶然现象。在一些地势均衡的局面下,通常人类高手和强围棋AI的判断较为接近;但在地势转换的局面下,人与AI由于判断的具体方法不一样而容易产生不同的结论。如前所述,人类通常以手割分析等方法来处理实地局部的子效分析,这部分的分析能够建立在较强的逻辑基础之上。但对于外势和中腹模糊地带的价值判断,则是以经验和感觉为手段,感觉“黑外势的价值似乎不如白实地那么大”。这种基于经验和印象的判断,自然是不十分准确的。但由于人类棋手的判断方法基本一致,在以往人与人的对局中,这种判断的不准确尚不能得到十分明显的呈现。
此局后来的进程印证了AI的判断,白方在中腹大闹天宫顺利做活,却最终实地不足而中盘落败。AI的胜率判断当然也不是绝对准确,真正完美的判断是与概率无涉的。但是,这一代AI在算法上并未如人类一般区分“实地”和“外势”,也就没有如人类一般在地势判断上的方法差异。人类能够较为准确地对实地进行量化分析,而在分析外势时不能保持同样的质量。这一强弱差别在人与人对弈时并未明显呈现,但在人机对弈时得到体现。也就是说,在根本上并非AI重视外势或长于对外势的判断,而是人类棋手不善于分析外势的这个弱点在均衡的AI面前暴露出来。
围棋AI并没有专门针对外势进行分析,甚至它不必要理解什么是外势。它的方法在于,一方面使用了蒙特卡洛和快速走子进行大量的搜索,每一次搜索都模拟到棋局结束。如果将这一过程理解为计算,那么当然包含了大量对中腹的计算。另一方面,AI通过自对弈训练出来的价值网络能够不带偏见和倾向地分析局面,在它达到很高的水准之后,自然压制了人类的弱项。
关于人类思维与AI算法的对比,尚有诸多话题值得后续研究及延展论述,本文暂止于此。
二、Master——全面的超越
从围棋的技术角度而言,模糊局面这一弱项使得人类面对V18水平的围棋AI时已然落入下风。在当时,很多人已经意识到判断并非人类所长,而将人类的优势希望寄托于复杂局面的计算能力之上。这一期望有V18对阵李世石九段时的唯一败局以及其他AI的诸多败局为证。然而,AlphaGo-Master及其后续版本向我们展现了,所谓的战斗弱点,只在早期版本中存在。达到Master的水平,意味着围棋AI对人类棋手在绝对实力上的全面超越,人类向AI学棋的时代正式到来了。
(一)弱点的消失
在2016年末至2017年初Master对人类的60连胜中,Master似乎并未面对非常复杂的战斗局面。这一方面是因为双方实力不在同一层面,尤其是序盘阶段人类常常要面对自身较弱的模糊判断,很容易在几十手后便落入明显下风;另一方面是由于60局都是网络快棋,人类想要保持局面较长时间的均势殊为不易。
这一代的围棋AI,一旦取得明显优势,常常会选择退让直到小胜。这是因为,对于AI而言,在较大的优势下,通常会存在很多条能够保持优势的路径,这些选择虽然在目数上存在差异,但在胜率上可能较为接近,甚至有时目数亏损的选择胜率更高。AI的随机性使得它常常会选到那些目数亏损的下法最终导向小胜。围棋AI只求取胜不求多胜的特点在2016年第一次人机对弈时还不能为多数人所理解,但在今天已为人所熟知。
2017年5月,在乌镇人机对弈的第二局中,AI面对复杂局面的能力得到了些许展现。在当时很多棋手认为AlphaGo似乎面临一定程度的危机,但从事后的复盘研究来看,那时AlphaGo已经胜券在握,只是人类棋手和一些弱于AlphaGo的程序还无法算清局面。AlphaGo不惧复杂局面的这一特点在此后公布的55局自对弈中得到了淋漓尽致的体现。在那55局中,有很多局的复杂程度远胜于AlphaGo与人类对弈的所有对局,而AlphaGo通常都能在非常复杂的局面下找到路径最终仍形成接近的局势。在那55局中,有接近一半的对局最终形成了一子以内的胜负,可见两方局面之胶着。
无论是对杀、官子、劫争,在55局自对弈中都可以看到很多,AlphaGo的下法几乎找不到问题。而它的布局和序盘又大出于人类定式之外,甚至通过复盘研究都难于理解。这意味着,对于人类棋手所处的水平而言,AlphaGo升级为Master版本之后,AI的弱点已经基本上完全消失了。当然,这并不意味着AlphaGo已经完美到没有弱点,而是它的弱点已不足以为人类棋手所捕捉。
据DeepMind团队透露,Master能够对V18版本达到让三子的水平。即使考虑AI自对弈时让子的过拟合现象,让三子也只可能是略有水分,从绝对实力而言达到让两子应是较为保守的估计。而V18以及大致处于同等水平的绝艺、DeepZenGo等AI已经能够在胜率上明显压制顶尖棋手。基于这一信息以及对AlphaGo自对弈棋谱的深入研究,一线的棋手普遍认同与AlphaGo之间存在两子左右的差距。这一差距,加上AlphaGo不像人类有发挥失常的偶然性,使得AlphaGo在对阵人类棋手时能够保证100%的胜率,一局不失。
以下用选取棋例分析略作阐述。
(二)棋例分析
取材自AlphaGo自对弈第55局,白胜1/4子。
序盘的下法暂且略过。白74、黑75是正常下法,白欲先手得角,黑反抢先手,此时白76按照人类的正常思维一定会在75的左边挡,最多是考虑是否先在5位下一路先虎一下再挡角,这两者都是与74所谓“相连贯”的下法。
然而,实战白棋碰在了76位。对人类棋手而言,这一步不仅难于下出,甚至在打谱时也难于理解。首先,这步棋显然不在人类棋手的第一感中。其次,在左上急需定型的情况下,按照惯性思维,也难以想到脱先。再者,这步棋的目的相当不明确,其时机也较难理解。
当然,我们根据AlphaGo的复盘系统可以对此着进行分析,从而用人类的方式理解其中的逻辑,进而品味到此着的妙味。但这毕竟是难以想象的一手,如果AlphaGo的策略网络使得它的第一感就是这步,说明它的棋感已经领先于人类棋手太多。
更有趣的是,黑77再次难以想象地脱先了。它既没有在左上角惩罚白棋的脱先,也没有跟着76选择应手,而是直接脱先去了左下角,其选点也较为少见。这两步棋。如果出现在业余的棋谱中,恐怕会被视为乱下的代表。乱下和高着的共同点,在于难以理解。对这样的着法,人类棋手难以在未经深入研究的情况下给出合理的逻辑链条,因此很多棋手感到AlphaGo自对弈棋谱中的很多着法“看不懂”。
这盘棋的中盘战斗异常复杂。用人类棋手的语言来说,经过了一系列的厚薄、地势转换,双方形成了非常胶着的局面。行至182手,全局已经被分割为11块棋,并出现了一个事关死活的劫争。最终,劫争持续至236手,形成大型转换,形势极度细微。
此局共弈330手,黑方盘面7目。经过复杂的官子大战,白方在左下使出妙手收官,最终以最微弱的优势取得了胜利。
这一盘自对弈棋谱综合地展现了AlphaGo的棋感、复杂局面、劫争和官子能力。以下另选一局,专门体现AlphaGo面对复杂对杀时超出人类的能力。
取材自AlphaGo自对弈第51局,白中盘胜。
具体的棋局进程在此不作评述。
行至黑左下三角的这一手拐,全局形成了令人眼花缭乱的超级复杂局面。黑白双方相互层层包围、切断,细数之,全局被分割为17块棋,其中只有4块是确定无疑的活棋,另外13块都处在生死不明的状态。这种对杀的激烈程度前所未见,即便是古代以激烈著称的当湖十局亦不能及。此后双方形成转换,白方吃掉左边,黑棋鲸吞右边,白棋继而取得下边,从而取得了最终的胜利。
令人赞叹的是,在如此复杂的对杀局面,职业棋手经过仔细的复盘,也未能找出双方明显的问题手。这意味着在某种意义上,这局复杂对杀、转换的结果甚至可能远在对杀开始之前早已注定。
由这两局棋例分析可以看出,AlphaGo在进化为Master版本之后,对人类的棋力形成了全面的超越。无论是布局、序盘,还是战斗、劫争、官子,AlphaGo的水平对于人类棋手而言已不存在短板。
这再一次提醒我们,围棋的人机对抗已经没有竞技上的意义,当前已经进入了人类棋手向AI学棋的时代。
三、AlphaGo——未来的围棋
AlphaGo对人类棋力的全面超越,与Master可能采用的新方法有关。与V18水平接近的围棋AI尚徘徊在略胜于人类顶尖的水平,但仍会常常输给人类棋手,其棋谱中的创造性着法也较为少见。Master所采用的新方法,或许是结构上的调整,其具体方法在写作本文时尚不能得知。由算法推想,神经网络应当仍是主体,其中的策略网络和价值网络可能已经进化到相当惊人的地步,使得它很快能发现与人类棋感完全不同的好手,并对局面做出迅速而异常精准的判断。
对于棋手而言,2017年可以说是向AI学棋的第一年。在这一年,职业棋手对许多下法的认识产生了翻天覆地的变化。
(一)点三三之兴起
取材自AlphaGo自对弈第19局。
黑7面对星位直接点三三,是AlphaGo进化为Master版本之后非常喜爱的下法。这一下法的核心,在于避免过早在二路扳粘,不至于使对方外势较厚,保留一些借用甚至是攻击的手段和可能性。
在自对弈棋谱公开之后,这一下法逐渐在职业棋战中大量出现,被公认为有力的手段,成为针对星位的常见下法。
本文所要反思的是,这一下法为何没有出现在人类的棋谱之中,而被AlphaGo发现?
究其原因,从人类的角度而言,这一下法的未能发现与人类积累围棋知识的方法有关。如前所述,人类的围棋经验包含整体经验和个人经验。所有下到职业甚至顶尖的棋手,都经历过从小学棋的阶段。在学棋的阶段,点三三的定型手法都必然包含二路扳粘的交换,而由于这一交换使得对方外围较厚,在实践中过早点三三容易吃亏,因此成为了在对方已有连片时的场合下法。
如图9、11即为传统的二路扳粘定型手法。
可以说,在AlphaGo带来颠覆以前,二路扳粘的定型手法已经与点三三连在一起印在所有学弈者的围棋知识之中,即使是下到最顶尖的棋手,也很难以个人的能力去反思这样一些整体经验留下的知识和惯性。
另外,关于点三三的整体经验之形成,又存在一些历史的原因。在中国古代,一直到民国以前,规则都要求还棋头,即终局时多一块则需多还一子。在这一条件下,虽然座子提供了很多直接点三三的机会,但点三三显然将使己方平白多出一块棋,在还棋头规则下已经先亏一子。在这种条件下,点三三自然不会出现,而挂角成为最常见的起手下法。而日本古棋取消了还棋头和座子,起手以小目居多,很少有人下在星位,也使得研究点三三的机缘不多。
现代围棋承袭自中日古棋。如面对星位的小飞挂,在施襄夏的《弈理指归》中已明确说明是挂角最好的选点,也是AlphaGo出现之前面对星位的最常见下法。在这种历史的强大惯性下,没有人能够跳出来,提出面对星位可以直接点三三,可以不在二路扳粘。
历史惯性的另一个例子,是妖刀定式。
(二)妖刀定式之灭亡
前4手,是著名的妖刀定式,以白2、4状似妖刀而得名。妖刀定式与雪崩定式、大斜定式齐名,是声名卓著的三大复杂难解定式之一,在近几十年来不断被研究、推敲,直到2016年仍然是职业棋界的流行变化之一。如图,白10通常是在黑1上一路扳,其后可能出现非常复杂的引征局面,在比赛中属于比拼研究深度的定式下法。
然而,AlphaGo的出现使得妖刀定式骤然接近于灭亡。其原因,在于AlphaGo在化身为Master与人类棋手对战时,两次使用了白10、12这样不符合常形的俗手下法并胜出。其后,AlphaGo的作者之一Aja Huang博士公布,AlphaGo认为这一所谓定式下法行至白10、12冲,黑棋胜率已大幅下跌15%。这一数据的公布,辅以AlphaGo目前的实力为保证,使得尚存疑惑的棋手也放弃了这个黑棋的下法。
有趣的是,当棋手放下成见,重新审视这一变化时,发现对于白10这一下法的正确认识原本并非不可能。
如图,是白10俗冲之后的基本定型。人类棋手最初的判断,是白棋虽然取得了一定的实地,但黑方获得了不错的外势,总体感觉黑棋外势优于白方实地。
但当AlphaGo公布胜率之后,很多棋手对此变化进行了深入的反思。一位高手告诉我们,他使用手割方法分析这一变化,得出的结论与AlphaGo接近,也是白棋便宜。其手割图大致如下:
首先,黑角变为白2先占角,从布局理论可知是黑棋稍亏。黑3-白6是双方正常,此后黑7是明显不好的下法,白8脱先正常,黑9、11又不太好,白12继续脱先。此后黑13-白16交换正常,白18-黑21交换正常,黑由于小目位置死去一子而送白22一手。由此手割图可以看出,黑棋没有明显便宜的交换,而白方有三处占得便宜,因此原图当为白棋明显有利。
这一分析相当简洁有力,令我信服。值得反思的是,在AlphaGo出现之前,虽然也有直接俗冲的棋谱,但大家并没有对此后的变化进行这样有效的手割分析,以致于错过了这一简明变化而沉溺于复杂的引征变化之中。
与点三三一样,这也是历史加之于人的思维惯性的展现。从小学习、背诵的定式,其关键着手已经形成为棋感,难以抹去。即使有所发现,也很难引起重视。
从这一点来看,吴清源大师更为令人敬仰,他的围棋生涯不断地超越了历史惯性的限制。例如,大雪崩定式的内拐下法,在当时是令人惊讶的新手,但在Aja Huang 公布的AlphaGo变化图中,大雪崩的内拐被确认为最佳的一手。
(三)未来的围棋
“未来的围棋”这一讲法具有双重含义。
其一,是指AlphaGo所下出的棋,假如没有AI的出现而以人类棋手的不断进步而论,可能会是未来几百、几千年后下出来的棋。在这样的历史进程中,需要出现一些如吴清源大师这样极富创造力的棋手,使得内拐、点三三、妖刀俗冲等下法能够超越历史惯性的束缚而出现。
AlphaGo之所以能够创造出一系列全新的有效下法,便是因为它逐渐超越了人类的围棋经验,而更多地依赖于它自对弈的经验。在它自对弈的不断尝试中,一些原本不被注意的选点在大量的带有随机性的对弈中被发掘出来,其中有良好效果的着法通过训练在AlphaGo的策略网络中不断提升其优先度,最终成为AlphaGo的直觉下法。例如点三三这一手,在我们看来是震撼的新手,但在AlphaGo那里恐怕早已实践过百千万局。
其二,是探讨未来的围棋会是何种面貌。假如DeepMind关于AlphaGo的第二篇论文顺利发布,将会有许多AI能够模拟复现Master的架构,从而通过一定时间的训练达到接近甚至超过Master的水平。其中,很可能有一些AI将会发布单机版,以供爱好者和职业棋手购买使用。也就是说,全面超越人类水平的围棋AI单机版进入市场,已经是在不远处可以看到的事情。在这一条件下,整个围棋界的生态将会发生很大的变化。
对弈网站、教学模式、竞赛方法等等都需要进行与之相适应的调整。从业余爱好者到职业棋手的练棋方式都将发生根本上的变化。尤其是对于职业棋手和冲段少年而言,借助AI的训练将成为最重要的训练方式。如何在训练中将AI的价值最大程度地发挥,成为一个关乎竞技水平的重要课题。
从围棋技术而言,人类棋手的水平将得到前所未有的大飞跃,尤其是布局到序盘的阶段,可以完全地借助AI来进行学习和分析,大幅提高人类棋手的薄弱环节。随着这一次水平飞跃的速度差异,竞技生态也可能发生一定程度的变化。短期来看,现有的职业高手中哪些人能够较快地掌握新式训练方法,并且能够有效地将AI着法转化为自身理解,其竞技成绩将得到显著提升。长远来看,欧美棋手通过从小与围棋AI的训练成长为世界一流棋手也成为可能。
更为重要的是,有了围棋AI的帮助,围棋的正面推广、围棋文化的发展都有了全新的利器。
一切变化都在向我们走来。2017年,在围棋史上可能会被认为是过渡的一年。未来的围棋,令人期待。
注:本文作者李喆系南京工业大学浦江学院围棋学院兼职教师。