阿尔法围棋 - 知识百科

阿尔法围棋

更新时间：2024-10-22 08:42

阿尔法围棋（AlphaGo）是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人，由谷歌（Google）旗下DeepMind公司戴密斯·哈萨比斯领衔的团队开发。其主要工作原理是“深度学习”。

旧版原理

深度学习

阿尔法围棋（AlphaGo）是一款围棋人工智能程序。其主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入，通过非线性激活方法取权重，再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样，通过合适的矩阵数量，多层组织链接一起，形成神经网络“大脑”进行精准复杂的处理，就像人们识别物体标注图片一样。

阿尔法围棋用到了很多新技术，如神经网络、深度学习、蒙特卡洛树搜索法等，使其实力有了实质性飞跃。美国脸书公司“黑暗森林”围棋软件的开发者田渊栋在网上发表分析文章说，阿尔法围棋系统主要由几个部分组成：一、策略网络（Policy Network），给定当前局面，预测并采样下一步的走棋；二、快速走子（Fast rollout），目标和策略网络一样，但在适当牺牲走棋质量的条件下，速度要比策略网络快1000倍；三、价值网络（Value Network），给定当前局面，估计是白胜概率大还是黑胜概率大；四、蒙特卡洛树搜索（Monte Carlo Tree Search），把以上这四个部分连起来，形成一个完整的系统。

两个大脑

阿尔法围棋（AlphaGo）是通过两个不同神经网络“大脑”合作来改进下棋。这些“大脑”是多层神经网络，跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始，去处理围棋棋盘的定位，就像图片分类器网络处理图片一样。经过过滤，13个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。

第一大脑：落子选择器（Move Picker）

阿尔法围棋（AlphaGo）的第一个神经网络大脑是“监督学习的策略网络（Policy Network）” ，观察棋盘布局企图找到最佳的下一步。事实上，它预测每一个合法下一步的最佳概率，那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}