“教学参考-32”版本间的差异

2022年8月13日 (六) 09:37的最后版本

教学目标

理解游戏和下棋的共同之处和不同之处
理解DeepMind AI 打Atari游戏的解决办法
了解OpenAI的捉迷藏游戏和DeepMind AlphaStar游戏背后的意义

教学内容

打游戏 VS 下棋

人工智能不仅会下棋，还会打电子游戏。和下棋相比，游戏似乎更复杂一些，如下图所示的一款称为Breakout的游戏，玩家需要左右控制红色托板接住掉下来的小球，使小球反弹回去并打破彩色壁板。打破的壁板越多，得分越高。玩家需要采取有效策略，以获得更高的得分。
机器要学会打这款游戏，首先必须要学会观察屏幕，包括小球和托板的位置，壁板的破裂情况，屏幕上方的分数等等。第二，基于这些观察，机器要生成一个动作来操控游戏杆，这些动作串连起来后将得到最大的奖励分值。
和棋类游戏相比，上述游戏操控任务最大的不同是机器得到的输入是一幅游戏画面，这意味着对系统状态的确定和评估更加困难。

Atari游戏

2015年，DeepMind公司发表了深度强化学习方案，在50款Atari游戏中的29款中取得了超过人类玩家的性能。DeepMind的模型是一个用强化学习训练的深度卷积神经网络。
如右图一所示，游戏画面经过一个卷积神经网络后，直接输出操作杠的操作指令。训练时，将屏幕上显示的得分作为奖励信号，通过调整网络参数，使得得分越大越好。经过大量训练，机器就可以学会打游戏的技巧。这类似于把游戏机交给一个小孩，让他自己去摸索尝试，最后他总能学成高手。
上述学习过程是典型的强化学习，因为学习信号来自于游戏给出的分数，而不是如何操纵游戏杆的具体监督信息。
值得注意的是，卷积神经网络将原始游戏画面映射为连续隐空间中的点，从而实现了系统状态的表达与估值，正是通过神经网络的这种状态学习能力，机器才得到抓住机会，做出正确的动作。

捉迷藏游戏

2019年，OpenAI发布了一个玩捉迷藏游戏的AI。虚拟世界有两个小人，一个负责藏，一个负责找。虚拟场景中有一些数字工具，如挡板、箱子等，小人可以利用这些工具辅助自己躲藏或捕捉。设计者给这两个小人足够的自由，唯一的目标是蓝色小人尽量隐藏自己，而红色小人尽量要抓到对方。这是一个标准的对抗游戏。
研究者让两个小人开始游戏，并利用和Atari一样的强化学习策略来训练他们的策略网络。当做了上亿次游戏后，研究者惊奇地发现，这两个小人竟然学会了利用工具的各种复杂技巧。例如，蓝色小人学会了用挡板搭个小室，然后把自己藏在小室的角落里，而红色小人则学会了搭个箱子，站在箱子上发现藏起来的对方。
这一模拟游戏带给人们的震撼不仅是两个小人在短时间内学会了各种技巧，更重要的是它向人们展示了基于一个朴素的生存目标，一个智能体在对抗环境中可能演化到何等高度：他可能创造出新的方法，新的模态，甚至新的工具。如果放到一个物理的开放世界里，AI可能进化出让人惊讶的能力。
需仔细向学生解释这一游戏背后的重要意义。

AlphaStar

2019年，DeepMind推出另一项重磅成果：在一款称为StarCraft II 的即时策略游戏中，他们研制的AlphaStar AI程序达到了人类专业玩家水平。和AlphaGo类似，AlphaStar首先从人类玩家的历史数据中学习一个初始模型，再通过自我对战进行强化学习。
和围棋游戏不同，StartCraft中每个玩家只能看到部分信息，而且可采取的策略千变万化，是真正的开放环境。AlphaStar的成功，证明AI智能体不仅可以学习简单的个体策略，还可以学习大规模、群体性的策略。
需仔细向学生解释这一游戏背后的重要意义。例如，有些国家已经开始基于AlphaStar的思路，研发战场上的自动指挥系统。

@@ 第1行： / 第1行： @@
 ==教学目标==
-*了解人类特殊智能的起源与发展过程
+* 理解游戏和下棋的共同之处和不同之处
-*重点理解人类互相信任、互相认同所带来的文明起点
+* 理解DeepMind AI 打Atari游戏的解决办法
+* 了解OpenAI的捉迷藏游戏和DeepMind AlphaStar游戏背后的意义
 ==教学内容==
-===生物进化史===
+===打游戏 VS 下棋 ===
-* 大约45亿年前，地球从环绕早期太阳旋转的吸积盘之中形成。42-40亿年前，地球表面温度降低，地壳凝固，大气与海洋形成。
-* 40亿年前，最早的生命以蛋白质的形式出现。38-35亿年前，单细胞生物出现，分化出细菌，成为最早的生物。
-*大约在38亿年前，当时的陆地还是一片荒芜，在汹涌澎湃的海洋中，无机物开始合成有机小分子（氨基酸、核苷酸），闪电轰击和岩浆喷发使得有机小分子合成有机大分子（蛋白质、核酸、类脂、多糖），生物大分子之间的相互作用最终演化出原始生命。随后，原始生命向着不同的方向演化，使地球充满了活力，形成了如今多姿多彩的生物世界。从原始生命的出现到今天种类繁多的生物物种，地球上共出现过多少种生物，这些生物之间存在怎样的进化关系，这是人们一直以来想要弄明白的问题。250多年前林奈创立了生物的分类系统和命名法，从此可以更加科学地对新物种进行命名。生物世界在人类的眼中变得井然有序，这也极大地促进了分类学的发展和人类对未知生物世界的探索。
-* 据估计，地球上诞生了约870万种生物，其中650万种生活在陆地上，220万种生活在海洋中。目前，有记录描述的物种大约有180万种。
-===人类的诞生===
-* 600万年前，在非洲某地，一群大猩猩在与自然的斗争中缓慢进化着。因为环境变化，森林消退，他们开始习惯在地面上直立行走。这些进化出的灵长类动物称为“南方古猿”。
-* 200万年前，一支称为“能人”古猿开始用双手制造石器，成为最早的人类。
-* 人类开始在非洲旅行，开启了全新的进化之路。大约20万年前，一个称为“智人”的人类种群在竞争中脱颖而出，成为现代人类的祖先。
-===人类智能阶跃之迷===
+* 人工智能不仅会下棋，还会打电子游戏。和下棋相比，游戏似乎更复杂一些，如下图所示的一款称为Breakout的游戏，玩家需要左右控制红色托板接住掉下来的小球，使小球反弹回去并打破彩色壁板。打破的壁板越多，得分越高。玩家需要采取有效策略，以获得更高的得分。
+* 机器要学会打这款游戏，首先必须要学会观察屏幕，包括小球和托板的位置，壁板的破裂情况，屏幕上方的分数等等。第二，基于这些观察，机器要生成一个动作来操控游戏杆，这些动作串连起来后将得到最大的奖励分值。
+* 和棋类游戏相比，上述游戏操控任务最大的不同是机器得到的输入是一幅游戏画面，这意味着对系统状态的确定和评估更加困难。
-* 大约在200万年前，人类和其灵长类近亲们拥有同样的认知能力。那么，是什么力量使得人类在此后的200万年里突然崛起，产生了远超其它物种的智力呢？
+===Atari游戏 ===
-* 生物进化的力量无法在200万年内如此显著地改变一个物种的基因，因此无法理解人类智能飞跃式的进步。
-* 脑容量的大小可以解释人类智能的基础。如前一节所述，人类具有超过其它动物的脑容量/体重比，因此具有变聪明的基础。问题是，人类和它的近亲们最初有相同的脑容量和体型，为什么人类的智能产生了飞跃式的进步，而黑猩猩们直到今天依然保持着原来的智力？
-* 另外，自智人以来，人类的脑容量其实是减小的，但无疑人是越来越聪明的。
-* 综上所述，无论是基因上还是生理条件上，都无法完全解释人类为何拥有远超其它所有物种（包括其近亲）的智力。
-===合作产生智能===
+* 2015年，DeepMind公司发表了深度强化学习方案，在50款Atari游戏中的29款中取得了超过人类玩家的性能。DeepMind的模型是一个用强化学习训练的深度卷积神经网络。
+* 如右图一所示，游戏画面经过一个卷积神经网络后，直接输出操作杠的操作指令。训练时，将屏幕上显示的得分作为奖励信号，通过调整网络参数，使得得分越大越好。经过大量训练，机器就可以学会打游戏的技巧。这类似于把游戏机交给一个小孩，让他自己去摸索尝试，最后他总能学成高手。
+* 上述学习过程是典型的强化学习，因为学习信号来自于游戏给出的分数，而不是如何操纵游戏杆的具体监督信息。
+* 值得注意的是，卷积神经网络将原始游戏画面映射为连续隐空间中的点，从而实现了系统状态的表达与估值，正是通过神经网络的这种状态学习能力，机器才得到抓住机会，做出正确的动作。
-* 人类的智能如此强大，不仅远超其它物种，而且也远远超过了生存的需要，且没有停下来的势头。如此独一无二的智能是如何产生的呢？科学家们对这个问题进行了长期研究，认为合作是人类智能开始飞跃的起点。
-* 因为环境的变化，我们的祖先，一批古猿人，已经不能通过摘果子来填饱肚子了。为了生存，他们不得不开始捕猎生活。然而，他们没有那么强大的身体和尖利的牙齿，奔跑的速度也没有优势。为了生存下去，他们必须进行合作，一起捕捉跑的更快，或更强大的动物。在这种合作中，他们需要互相交流，平衡关系，制定策略，从而锻炼了大脑的各种能力，激发了智能的快速提高。
-* 合作是很多群居动物共有的特性（如狼、黑猩猩甚至昆虫），但只有人类的合作激发了智能的飞跃。这是因为人类的合作非常深刻，包括合作养育婴儿，分享狩猎经验等。这些合作的目的不是为了自己，而是为了其他成员和整个群体。这种合作的无私性在其他动物那里是看不到的。
-* 人类的合作精神来自于人与人之间深刻的认同感，即每个人会把其他人视为和自己具有同样思考方式的个体。这种相互之间的认同感奠定了人类“共情”的心理基础，即通过换位思考理解他人的处境与苦难。因此，我们的祖先愿意帮助他人，信任他人，分享成果，分享经验，必要时甚至为他人和集体做出牺牲。
-* 人类的这种无私品质之所以能够养成，可能是因为当时的生存条件实在是太恶劣了，只有具有这些特质的个体和种群才能生存下来，那些自私自利的人被大自然早早地淘汰了。因此，生存下来的人类天然具有互信互爱的高贵基因。
-* 那么，为什么同样处于生存劣势的其它动物没有出现这种互信互爱的基因（并被自然选择留存下来），成为另一种人类呢？近年来，科学家们发现了一些人类有别于其它灵长类动物的基因，称为ARHGAP11B，这些基因可以促进神经系统的发育。科学家们猜测，这一基因的存在可能是基因突变的结果，这一突变让人类拥有更大的脑容量（3倍于黑猩猩）。更大的脑容量让人类在处理生存问题的时候具有更强的思考能力，并在合作过程中意识到了互信的重要。
+===捉迷藏游戏===
-===人类文明发展===
+* 2019年，OpenAI发布了一个玩捉迷藏游戏的AI。虚拟世界有两个小人，一个负责藏，一个负责找。虚拟场景中有一些数字工具，如挡板、箱子等，小人可以利用这些工具辅助自己躲藏或捕捉。设计者给这两个小人足够的自由，唯一的目标是蓝色小人尽量隐藏自己，而红色小人尽量要抓到对方。这是一个标准的对抗游戏。
+* 研究者让两个小人开始游戏，并利用和Atari一样的强化学习策略来训练他们的策略网络。当做了上亿次游戏后，研究者惊奇地发现，这两个小人竟然学会了利用工具的各种复杂技巧。例如，蓝色小人学会了用挡板搭个小室，然后把自己藏在小室的角落里，而红色小人则学会了搭个箱子，站在箱子上发现藏起来的对方。
+* 这一模拟游戏带给人们的震撼不仅是两个小人在短时间内学会了各种技巧，更重要的是它向人们展示了基于一个朴素的生存目标，一个智能体在对抗环境中可能演化到何等高度：他可能创造出新的方法，新的模态，甚至新的工具。如果放到一个物理的开放世界里，AI可能进化出让人惊讶的能力。
+* 需仔细向学生解释这一游戏背后的重要意义。
+===AlphaStar===
-* 人与人之间的互信可能是人类文明的开始。有了这种互信，人们愿意接受他人创造的成果并在此基础上继续贡献，为后人留下传承。这种称为“棘轮效应”的积累非常重要，使得每一代种群所创造的成果得以保存并被后代持续改进。正是基于这种积累，人类慢慢发展出了文字、宗教、艺术乃至现代科学。新诞生的人类在新的知识环境中不断学习并创造出更优秀的智力成果，一步步推动文明的进步。
+* 2019年，DeepMind推出另一项重磅成果：在一款称为StarCraft II 的即时策略游戏中，他们研制的AlphaStar AI程序达到了人类专业玩家水平。和AlphaGo类似，AlphaStar首先从人类玩家的历史数据中学习一个初始模型，再通过自我对战进行强化学习。
-* 因此，人类的智能已经不仅是单一的思维能力，而是建立在世代知识积累上的技能、视野与信念。
+* 和围棋游戏不同，StartCraft中每个玩家只能看到部分信息，而且可采取的策略千变万化，是真正的开放环境。AlphaStar的成功，证明AI智能体不仅可以学习简单的个体策略，还可以学习大规模、群体性的策略。
+* 需仔细向学生解释这一游戏背后的重要意义。例如，有些国家已经开始基于AlphaStar的思路，研发战场上的自动指挥系统。

“教学参考-32”版本间的差异

2022年8月13日 (六) 09:37的最后版本

目录

教学目标

教学内容

打游戏 VS 下棋

Atari游戏

捉迷藏游戏

AlphaStar

导航菜单

个人工具

名字空间

变种

查看

操作

搜索

导航

工具