前不久,Deepmind 在《自然》上发表论文,介绍了“阿尔法狗”(AlphaGo)取得的重大进展。与之前的版本不同,AlphaGo Zero 完全不需要人类棋谱,从零开始自学习,只用 3 天就以 100∶0 的压倒性成绩,击败曾赢下韩国棋手李世石的那版 AlphaGo。

 

人工智能AI)与人类的关系,在 2016 年的 AI 爆发后备受关注。对于给定规则的博弈问题,AI 是需要人类的知识提供“第一推动”,还是可以自己从“元规则”开始反复实践总结,发展出知识体系,是个有趣的问题。对于像“打砖块”这样的简单游戏,AI 从零知识开始反复试玩,达到超过人类玩家的分数,2015 年就实现了。但是围棋这样复杂的游戏,人们还有疑问,也许人类提供一些知识对高水平 AI 是必需的,从零知识开始也许 AI 会陷入局部陷阱中出不来。

 

现在 AlphaGo Zero 给出了答案:对于 AI 来说,人类对围棋的知识积累不是必须的!而且从零知识开始训练,可以达到更高水平。人类棋谱中有一些“成见”,如一些自以为正确的本能定式下法,其实反而阻止了学习者达到更高水平。AlphaGo Zero 从零开始自学习,完全不受人类棋谱的“污染”,就可以突破“成见”,真正进入自由的天地,达到更高的水平。

 

AlphaGo 能不依赖人类的知识就学习成功,其关键之处在于:围棋是有确定规则的,是一个“客观”的游戏。不需要人主观评判,机器按行棋规则下,终局就有确定的胜负结果出来。这样,AlphaGo 的学习就不需要人类的干预,完全可以自动进行海量的实践。AlphaGo Zero 的成功,是自学习方法的突破,也是“实践检验”哲学原理的成功。

 

人类的社会活动或者 AI 的博弈,需要通过实践不断提升效率与表现。实践总是需要在一定的规则之内进行,这是基础,就如稳定的社会、现代银行体系、围棋的行棋与终局规则。实践时,人类本能地会借鉴前辈的一些“经验”作为思考的出发点。学校、政府、公司都有教育体系,正如围棋 AI 会学习人类高手的棋谱生成“策略网络”作为优先选择。然而这些“经验”,到底能起什么样的作用,值得仔细观察。

 

在实践不足的情况下,参考前人经验与人类棋谱,显然是有益的,能够快速“上手”。但是,在发展遇到瓶颈的时候,可能就会显出前人经验的不足,照本宣科会限制思维,无法突破。想取得突破,就需要从本原出发,敢于怀疑,抛弃成见大胆实践学习,下出“新手”,作出改革。这说明,人类的实践活动可以借鉴前人的经验,但是如果有了好的实践反馈学习框架,完全可以进行扬弃,取得理论突破。中国改革开放的历程也说明,全社会持续不断地学习与主动变革实践,正是社会奋发向上不断取得突破的哲学基础。

 

AlphaGo 虽然再次震惊世人,但无须对 AI 的快速发展和惊人实力感到神伤。目前,AI 仍只是人类的工具,还没有自己的思维。

 

更多最新行业资讯,欢迎点击与非网《今日大事要闻》