教学参考-13

教学目标

理解监督学习、无监督学习、强化学习三种学习方法的基本概念
理解每种学习方法适用场景和要解决的任务

教学内容

监督学习

监督学习类似于老师教学生，把知识直接传授给学生，学生记住了老师讲解的知识，即可用于实践。
监督学习可处理分类和回归两种任务，前者对样本的某种属性进行预测（因此也称为预测任务），后者对样本所属类别进行区分。
举例：假设我们的目的是让机器学习什么是苹果。首先给它一些苹果的样例（数据），然后告诉它这些是苹果（标注）。用这些苹果的样例训练一个模型。当下次再有新的苹果出现时，机器就能认出它是个苹果了。
监督学习需要对数据进行标注。依任务不同，标注的困难程度也不同。一般来说，标注会消耗大量人工和时间成本，但这些标注通常会带来性能的显著提升。

无监督学习

无监督学习类似于没有老师的“自学成材” 。例如，如果给一个小学生一些水果，但并不告诉它哪个果子是苹果，哪个果子是香蕉。尽管如此，他依然可以发现很多事情，如把长的一样的果子归成一类，发现某类果子差异性更大，发现某两种果子更加相似，等等。
机器也可以做到类似的事情，即通过数据本身发现其内部规律。这种学习方法称为无监督学习。
聚类和流形学习是两类典型的无监督学习任务。
聚类是指把相似的样本聚成一组，同组成员有相似的属性。例如，通过关察不同果子的特点，可以很容易把苹果、桃子、香蕉区分成不同组。这一方法可用于商品推荐：通过对商品进行聚类，可以给用户推荐与购买历史相似的商品。
流形学习是指通过观察发现样本的分布规律。例如，机器通过学习可以发现代表“颜色”这一属性的特征。有了这一发现，就可以通过在该特征上进行搜索来找到某种颜色的苹果样本。流形学习一般用于从数据中发现重要特征并对数据进行降维。一般来说机器学习中数据的维度都比较高降维后可以降低建模的难度。另外，如果把数据降到二维或三维，就可以直接观察数据的分布了，有利于分析数据特性，理解预测结果。

强化学习

我们想训练一条狗狗，当说“苹果”或“香焦”时，它可以把正确的水果送过来。狗狗本身确实可以分辨苹果和香蕉的不同，但它并不能把主人的发音与水果对应起来。因此我们需要一些监督信息，告诉狗狗不同水果的名字。可惜的是，狗狗听不懂我们说话，监督学习无法进行。怎么办呢？一种做法是用奖励信号代替监督信号来引导它主动学习。方法如下：如果它拿对了，就给它一块骨头做奖励；如果拿错了，就没有奖励。久而久之，它就可以听懂主人的命令了。这是一种有别于监督学习和非监督学习的学习方法，称为强化学习。
强化学习是我们人的基础学习方法。想想我们小时候是如何学会走路的：父母并没有告诉我们应该先迈哪只脚，该如何用力等（小孩子也听不懂），但我们做好的时候会有成就感，还会得到父母的赞扬，如果做不好，摔跤了会感到疼痛。这样一正一负两种反馈就形成了学习信号，引导我们一点点学会走路。
强化学习是一种间接的监督学习，通过奖励让机器知道应该如何行动。强化学习广泛应用在棋牌游戏、机器人动作等任务。在这些任务中，即时的监督信号很难获得，但可以通过行为产生的后果对模型进行引导，使得行为产生的整体收益最大。
AlphaGo, AlphaStar等系统都是基于强化学习训练的，因为人们不可能在每一步棋中告诉机器该怎么落子，也不可能在游戏过程中全程告诉机器该如何打。

教学参考-13

目录

教学目标

教学内容

监督学习

无监督学习

强化学习

导航菜单

个人工具

名字空间

变种

查看

操作

搜索

导航

工具