“教学参考-32”版本间的差异

2022年8月13日 (六) 09:37的最后版本

教学目标

理解游戏和下棋的共同之处和不同之处
理解DeepMind AI 打Atari游戏的解决办法
了解OpenAI的捉迷藏游戏和DeepMind AlphaStar游戏背后的意义

教学内容

打游戏 VS 下棋

人工智能不仅会下棋，还会打电子游戏。和下棋相比，游戏似乎更复杂一些，如下图所示的一款称为Breakout的游戏，玩家需要左右控制红色托板接住掉下来的小球，使小球反弹回去并打破彩色壁板。打破的壁板越多，得分越高。玩家需要采取有效策略，以获得更高的得分。
机器要学会打这款游戏，首先必须要学会观察屏幕，包括小球和托板的位置，壁板的破裂情况，屏幕上方的分数等等。第二，基于这些观察，机器要生成一个动作来操控游戏杆，这些动作串连起来后将得到最大的奖励分值。
和棋类游戏相比，上述游戏操控任务最大的不同是机器得到的输入是一幅游戏画面，这意味着对系统状态的确定和评估更加困难。

Atari游戏

2015年，DeepMind公司发表了深度强化学习方案，在50款Atari游戏中的29款中取得了超过人类玩家的性能。DeepMind的模型是一个用强化学习训练的深度卷积神经网络。
如右图一所示，游戏画面经过一个卷积神经网络后，直接输出操作杠的操作指令。训练时，将屏幕上显示的得分作为奖励信号，通过调整网络参数，使得得分越大越好。经过大量训练，机器就可以学会打游戏的技巧。这类似于把游戏机交给一个小孩，让他自己去摸索尝试，最后他总能学成高手。
上述学习过程是典型的强化学习，因为学习信号来自于游戏给出的分数，而不是如何操纵游戏杆的具体监督信息。
值得注意的是，卷积神经网络将原始游戏画面映射为连续隐空间中的点，从而实现了系统状态的表达与估值，正是通过神经网络的这种状态学习能力，机器才得到抓住机会，做出正确的动作。

捉迷藏游戏

2019年，OpenAI发布了一个玩捉迷藏游戏的AI。虚拟世界有两个小人，一个负责藏，一个负责找。虚拟场景中有一些数字工具，如挡板、箱子等，小人可以利用这些工具辅助自己躲藏或捕捉。设计者给这两个小人足够的自由，唯一的目标是蓝色小人尽量隐藏自己，而红色小人尽量要抓到对方。这是一个标准的对抗游戏。
研究者让两个小人开始游戏，并利用和Atari一样的强化学习策略来训练他们的策略网络。当做了上亿次游戏后，研究者惊奇地发现，这两个小人竟然学会了利用工具的各种复杂技巧。例如，蓝色小人学会了用挡板搭个小室，然后把自己藏在小室的角落里，而红色小人则学会了搭个箱子，站在箱子上发现藏起来的对方。
这一模拟游戏带给人们的震撼不仅是两个小人在短时间内学会了各种技巧，更重要的是它向人们展示了基于一个朴素的生存目标，一个智能体在对抗环境中可能演化到何等高度：他可能创造出新的方法，新的模态，甚至新的工具。如果放到一个物理的开放世界里，AI可能进化出让人惊讶的能力。
需仔细向学生解释这一游戏背后的重要意义。

AlphaStar

2019年，DeepMind推出另一项重磅成果：在一款称为StarCraft II 的即时策略游戏中，他们研制的AlphaStar AI程序达到了人类专业玩家水平。和AlphaGo类似，AlphaStar首先从人类玩家的历史数据中学习一个初始模型，再通过自我对战进行强化学习。
和围棋游戏不同，StartCraft中每个玩家只能看到部分信息，而且可采取的策略千变万化，是真正的开放环境。AlphaStar的成功，证明AI智能体不仅可以学习简单的个体策略，还可以学习大规模、群体性的策略。
需仔细向学生解释这一游戏背后的重要意义。例如，有些国家已经开始基于AlphaStar的思路，研发战场上的自动指挥系统。

@@ 第1行： / 第1行： @@
 ==教学目标==
-*了解人类特殊智能的起源与发展过程
+* 理解游戏和下棋的共同之处和不同之处
-*重点理解人类互相信任、互相认同所带来的文明起点
+* 理解DeepMind AI 打Atari游戏的解决办法
+* 了解OpenAI的捉迷藏游戏和DeepMind AlphaStar游戏背后的意义
 ==教学内容==
-===生物进化史===
+===打游戏 VS 下棋 ===
+* 人工智能不仅会下棋，还会打电子游戏。和下棋相比，游戏似乎更复杂一些，如下图所示的一款称为Breakout的游戏，玩家需要左右控制红色托板接住掉下来的小球，使小球反弹回去并打破彩色壁板。打破的壁板越多，得分越高。玩家需要采取有效策略，以获得更高的得分。
+* 机器要学会打这款游戏，首先必须要学会观察屏幕，包括小球和托板的位置，壁板的破裂情况，屏幕上方的分数等等。第二，基于这些观察，机器要生成一个动作来操控游戏杆，这些动作串连起来后将得到最大的奖励分值。
+* 和棋类游戏相比，上述游戏操控任务最大的不同是机器得到的输入是一幅游戏画面，这意味着对系统状态的确定和评估更加困难。
-* 大约45亿年前，地球从环绕早期太阳旋转的吸积盘之中形成。42-40亿年前，地球表面温度降低，地壳凝固，大气与海洋形成。
+===Atari游戏 ===
-* 40亿年前，最早的生命以蛋白质的形式出现。38-35亿年前，单细胞生物出现，分化出细菌，成为最早的生物。
-*大约在38亿年前，当时的陆地还是一片荒芜，在汹涌澎湃的海洋中，无机物开始合成有机小分子（氨基酸、核苷酸），闪电轰击和岩浆喷发使得有机小分子合成有机大分子（蛋白质、核酸、类脂、多糖），生物大分子之间的相互作用最终演化出原始生命。随后，原始生命向着不同的方向演化，使地球充满了活力，形成了如今多姿多彩的生物世界。从原始生命的出现到今天种类繁多的生物物种，地球上共出现过多少种生物，这些生物之间存在怎样的进化关系，这是人们一直以来想要弄明白的问题。250多年前林奈创立了生物的分类系统和命名法，从此可以更加科学地对新物种进行命名。生物世界在人类的眼中变得井然有序，这也极大地促进了分类学的发展和人类对未知生物世界的探索。
-* 据估计，地球上诞生了约870万种生物，其中650万种生活在陆地上，220万种生活在海洋中。目前，有记录描述的物种大约有180万种。
+* 2015年，DeepMind公司发表了深度强化学习方案，在50款Atari游戏中的29款中取得了超过人类玩家的性能。DeepMind的模型是一个用强化学习训练的深度卷积神经网络。
+* 如右图一所示，游戏画面经过一个卷积神经网络后，直接输出操作杠的操作指令。训练时，将屏幕上显示的得分作为奖励信号，通过调整网络参数，使得得分越大越好。经过大量训练，机器就可以学会打游戏的技巧。这类似于把游戏机交给一个小孩，让他自己去摸索尝试，最后他总能学成高手。
+* 上述学习过程是典型的强化学习，因为学习信号来自于游戏给出的分数，而不是如何操纵游戏杆的具体监督信息。
+* 值得注意的是，卷积神经网络将原始游戏画面映射为连续隐空间中的点，从而实现了系统状态的表达与估值，正是通过神经网络的这种状态学习能力，机器才得到抓住机会，做出正确的动作。
+===捉迷藏游戏===
-===人类智能阶跃之迷===
+* 2019年，OpenAI发布了一个玩捉迷藏游戏的AI。虚拟世界有两个小人，一个负责藏，一个负责找。虚拟场景中有一些数字工具，如挡板、箱子等，小人可以利用这些工具辅助自己躲藏或捕捉。设计者给这两个小人足够的自由，唯一的目标是蓝色小人尽量隐藏自己，而红色小人尽量要抓到对方。这是一个标准的对抗游戏。
+* 研究者让两个小人开始游戏，并利用和Atari一样的强化学习策略来训练他们的策略网络。当做了上亿次游戏后，研究者惊奇地发现，这两个小人竟然学会了利用工具的各种复杂技巧。例如，蓝色小人学会了用挡板搭个小室，然后把自己藏在小室的角落里，而红色小人则学会了搭个箱子，站在箱子上发现藏起来的对方。
+* 这一模拟游戏带给人们的震撼不仅是两个小人在短时间内学会了各种技巧，更重要的是它向人们展示了基于一个朴素的生存目标，一个智能体在对抗环境中可能演化到何等高度：他可能创造出新的方法，新的模态，甚至新的工具。如果放到一个物理的开放世界里，AI可能进化出让人惊讶的能力。
+* 需仔细向学生解释这一游戏背后的重要意义。
+===AlphaStar===
-===人类文明发展===
+* 2019年，DeepMind推出另一项重磅成果：在一款称为StarCraft II 的即时策略游戏中，他们研制的AlphaStar AI程序达到了人类专业玩家水平。和AlphaGo类似，AlphaStar首先从人类玩家的历史数据中学习一个初始模型，再通过自我对战进行强化学习。
+* 和围棋游戏不同，StartCraft中每个玩家只能看到部分信息，而且可采取的策略千变万化，是真正的开放环境。AlphaStar的成功，证明AI智能体不仅可以学习简单的个体策略，还可以学习大规模、群体性的策略。
+* 需仔细向学生解释这一游戏背后的重要意义。例如，有些国家已经开始基于AlphaStar的思路，研发战场上的自动指挥系统。

“教学参考-32”版本间的差异

2022年8月13日 (六) 09:37的最后版本

目录

教学目标

教学内容

打游戏 VS 下棋

Atari游戏

捉迷藏游戏

AlphaStar

导航菜单

个人工具

名字空间

变种

查看

操作

搜索

导航

工具