AlphaGo 宣布退役后,DeepMind 在围棋上的探索并没有停止。

 

今年 5 月的乌镇大会的“人机对局”中,中国棋手、世界冠军柯洁 9 段 0:3 不敌 AlphaGo。在 AlphaGo 和世界顶尖围棋选手群战后,世界冠军时越九段这样评价 AlphaGo 和人类的对弈:“这是我前所未见的,就像是想象中来自遥远未来的棋局。”

 

DeepMind 联合创始人兼 CEO Demis Hassabis 在赛后宣布,AlphaGo 将永久退出竞技舞台,不再进行比赛。不过他表示:“我们计划在今年稍晚时候发布最后一篇学术论文,详细介绍我们在算法效率上所取得的一系列进展,以及应用在其他更全面领域中的可能性。我们希望更多的开发者能够接过接力棒,利用这些全新的进展开发出属于自己的强大围棋程序。”

 

从强化学习走向自学习

10 月 19 日,Hassabis 的承诺得到了兑现。DeepMind 如约在《自然》杂志(Nature)上发表论文。在这篇名为《Mastering the game of Go without human knowledge》(《不使用人类知识掌握围棋》)的论文中,DeepMind 展示了他们更强大的新版本围棋程序 AlphaGo Zero,验证了即使在像围棋这样最具挑战性的领域,人工智能也可以通过纯强化学习的方法自我完善达到目的。

 

威盛电子语音交互部门总监张国峰对记者表示:“DeepMind 已经把人工智能做到了极致。但是即使是最新版本的 AlphaGo,也仍然是基于强化学习,它的先进之处是过去需要人类给他喂数据,做大量训练,现在不用了,机器自己就能基于经验做决策,这是一大进步。下一步就是要发展纯的自主学习了。”

 

人工智能的长期目标是通过后天的自主学习,在一个具有挑战性的领域创造出超越人类的精通程度学习的算法。新的论文显示,除了围棋的规则,AlphaGo Zero 可以仅基于强化学习的算法,而不需要人类提供数据、指导。

 

这意味着 AlphaGo 已经能成为自己的老师,这一神经网络被训练用于预测 AlphaGo 自己的落子选择,提高了搜索算法的强度,使得落子质量更高,具有更强的自我对弈迭代能力。

 

此前 AlphaGo 已经完成了百万次高水准的自我训练。DeepMind 将会公布 50 盘 AlphaGo 自我慢棋对弈的棋谱,其中包含了许多全新的思路及策略。相比起之前使用人类对弈的数据,新版本的算法训练时间更短,仅用 3 天时间就达到了击败李世石的 AlphaGo Lee 的水平,21 天达到了之前击败柯洁的 AlphaGoMaster 的水平。

 

AlphaGo Zero 不仅发现了人类数千年来已有的许多围棋策略,还设计了人类玩家以前未知的策略。在 3 天内,也就是 AlphaGoZero 在击败此前版本的 AlphaGo 之前,曾进行过 490 万次自我对弈练习。相比之下,此前版本的 AlphaGo 的训练时间长达数月之久。

 

“从一块白板(blank slate)开始,我们的新程序 AlphaGoZero 表现惊人,并以 100:0 击败了此前版本的 Alpha Go。而且无需使用人类专家下棋的数据进行监督学习。”DeepMind AlphaGo Zero 项目领导人 DavidSilver 说道。

 

张国峰向记者解释道:“类似 AlphaGo 的算法,只要在执行中能够得到对输出结果优劣反馈的系统,都可以用强化学习。”他还表示,除了围棋游戏,强化学习还能用于射击类游戏,以及贪吃蛇等游戏;另外生产流水线上的机器人训练,如果使用强化学习,就可以很快让机器人找到最佳移动路径;股票交易也可以使用类似的训练方法。

 

解决更复杂的科学难题

在谈到 AlphaGo 的项目时,谷歌大中华区总裁石博盟告诉记者,原本谷歌认为在人机对弈的时候,围棋选手可能会有压力,但是他们非常高兴地看到,包括柯洁在内的围棋选手对于人工智能是一种接受和拥抱的态度。

 

“他们将人工智能看作是一种能够帮助他们揭示围棋的奥妙、突破思维局限的途径。”石博盟在接受记者专访时说道,“AlphaGo 所代表的人工智能实际上帮助围棋选手在对弈的过程当中发现了下围棋新新招数和新思路,他们把这些作为个人知识的补充和视野扩展的方式,我觉得这是最完美的一个结合。”

 

DeepMind 的论文还显示,过去的几个月中,AlphaGo 的研发团队已经开始把精力投入到其它重大挑战中,研发出更为高级的通用算法,帮助科学家们解决最复杂的问题,包括找到新的疾病治疗方法、显著降低能源消耗、发明革命性的新材料等。DeepMind 称,如果人工智能在上述领域发现新的知识和策略,它的突破将十分可观。

 

毫无疑问,人工智能拥有探索新知识的潜能,这点将让全人类受益。DeepMind 也强调,AlphaGo 与人类的关系绝不是对立的,反而是能够启发人类把这些新发现应用到其他新领域,以解决当前我们正面临的一些最重要最迫切的科学挑战。

 

Hassabis 表示,AlphaGo 的项目能够为社会的基础科研提供有关思维模式的解决方案。他还称,AlphaGo 团队已经在做一些能够把这项技术应用到其它领域的项目。

 

他举例称,AlphaGo 会成为一个从复杂数据中进行搜索提炼的机器。他解释道:“由于 AlphaGo Zero 并不仅仅是为了理解围棋而设计的,因此它可以发现其它领域的数据,比如药物的发现,蛋白质折叠,量子化学,粒子物理以及材料设计等等。”

 

不过值得指出的是,围棋和很多棋盘类的游戏一样,它的规则是有限的,不含运气成分,也没有隐藏的信息,因此计算机相对容易理解。但是如果要运用到其它领域,AlphaGo 的局限性就会展现出来,DeepMind 目前还没有创造出一个魔术的“思考机器”。Hassabis 说道:“AlphaGo 是一个不错的开端。我们需要分两步走:第一步,解决智能的问题;第二步,让世界变得更美好。我们正在试图构建通用的算法,这只完成了第一步,也是激动人心的一步。”

 

更多最新行业资讯,欢迎点击与非网《今日大事要闻》