教学参考-32

来自cslt Wiki

跳转至：导航、搜索

目录

1 教学目标
2 教学内容

教学目标

理解游戏和下棋的共同之处和不同之处
理解DeepMind AI 打Atari游戏的解决办法
了解OpenAI的捉迷藏游戏和DeepMind AlphaStar游戏背后的意义

教学内容

打游戏 VS 下棋

人工智能不仅会下棋，还会打电子游戏。和下棋相比，游戏似乎更复杂一些，如下图所示的一款称为Breakout的游戏，玩家需要左右控制红色托板接住掉下来的小球，使小球反弹回去并打破彩色壁板。打破的壁板越多，得分越高。玩家需要采取有效策略，以获得更高的得分。
机器要学会打这款游戏，首先必须要学会观察屏幕，包括小球和托板的位置，壁板的破裂情况，屏幕上方的分数等等。第二，基于这些观察，机器要生成一个动作来操控游戏杆，这些动作串连起来后将得到最大的奖励分值。
和棋类游戏相比，上述游戏操控任务最大的不同是机器得到的输入是一幅游戏画面，这意味着对系统状态的确定和评估更加困难。

Atari游戏

2015年，DeepMind公司发表了深度强化学习方案，在50款Atari游戏中的29款中取得了超过人类玩家的性能。DeepMind的模型是一个用强化学习训练的深度卷积神经网络。
如右图一所示，游戏画面经过一个卷积神经网络后，直接输出操作杠的操作指令。训练时，将屏幕上显示的得分作为奖励信号，通过调整网络参数，使得得分越大越好。经过大量训练，机器就可以学会打游戏的技巧。这类似于把游戏机交给一个小孩，让他自己去摸索尝试，最后他总能学成高手。
上述学习过程是典型的强化学习，因为学习信号来自于游戏给出的分数，而不是如何操纵游戏杆的具体监督信息。
值得注意的是，卷积神经网络将原始游戏画面映射为连续隐空间中的点，从而实现了系统状态的表达与估值，正是通过神经网络的这种状态学习能力，机器才得到抓住机会，做出正确的动作。

捉迷藏游戏

2019年，OpenAI发布了一个玩捉迷藏游戏的AI。虚拟世界有两个小人，一个负责藏，一个负责找。虚拟场景中有一些数字工具，如挡板、箱子等，小人可以利用这些工具辅助自己躲藏或捕捉。设计者给这两个小人足够的自由，唯一的目标是蓝色小人尽量隐藏自己，而红色小人尽量要抓到对方。这是一个标准的对抗游戏。
研究者让两个小人开始游戏，并利用和Atari一样的强化学习策略来训练他们的策略网络。当做了上亿次游戏后，研究者惊奇地发现，这两个小人竟然学会了利用工具的各种复杂技巧。例如，蓝色小人学会了用挡板搭个小室，然后把自己藏在小室的角落里，而红色小人则学会了搭个箱子，站在箱子上发现藏起来的对方。
这一模拟游戏带给人们的震撼不仅是两个小人在短时间内学会了各种技巧，更重要的是它向人们展示了基于一个朴素的生存目标，一个智能体在对抗环境中可能演化到何等高度：他可能创造出新的方法，新的模态，甚至新的工具。如果放到一个物理的开放世界里，AI可能进化出让人惊讶的能力。
需仔细向学生解释这一游戏背后的重要意义。

AlphaStar

2019年，DeepMind推出另一项重磅成果：在一款称为StarCraft II 的即时策略游戏中，他们研制的AlphaStar AI程序达到了人类专业玩家水平。和AlphaGo类似，AlphaStar首先从人类玩家的历史数据中学习一个初始模型，再通过自我对战进行强化学习。
和围棋游戏不同，StartCraft中每个玩家只能看到部分信息，而且可采取的策略千变万化，是真正的开放环境。AlphaStar的成功，证明AI智能体不仅可以学习简单的个体策略，还可以学习大规模、群体性的策略。
需仔细向学生解释这一游戏背后的重要意义。例如，有些国家已经开始基于AlphaStar的思路，研发战场上的自动指挥系统。

取自“http://index.cslt.org/mediawiki/index.php?title=教学参考-32&oldid=39070”