“教学参考-28”版本间的差异
来自cslt Wiki
(以“==教学目标== * 了解人类语音的规则性 * 了解语言模型的基础概念 * 理解超长距离语言模型所带来的强大能力 * 理解机器写小...”为内容创建页面) |
|||
第5行: | 第5行: | ||
* 理解超长距离语言模型所带来的强大能力 | * 理解超长距离语言模型所带来的强大能力 | ||
* 理解机器写小说的基本原理 | * 理解机器写小说的基本原理 | ||
− | |||
− | |||
− | |||
==教学内容== | ==教学内容== | ||
第16行: | 第13行: | ||
* 可以将语言过程形式化为一个符号生成过程,只要确定了生成规则,就可以生成符合规则的句子。 | * 可以将语言过程形式化为一个符号生成过程,只要确定了生成规则,就可以生成符合规则的句子。 | ||
* 一般来说,我们可以明确定义语法规则,但语义规则很难确定。因此,依靠规则写小说不太可行。 | * 一般来说,我们可以明确定义语法规则,但语义规则很难确定。因此,依靠规则写小说不太可行。 | ||
− | |||
===语言模型=== | ===语言模型=== | ||
第30行: | 第26行: | ||
* 所谓神经语言模型,就是把历史字串通过神经网络进行编码,再基于这一编码来对下一个词进行预测。这一编码方式与n-gram“数出现次数”的方式有很大不同,不同历史字串可以共享编码结构,因此可以实现非常长距离的上下文建模。 | * 所谓神经语言模型,就是把历史字串通过神经网络进行编码,再基于这一编码来对下一个词进行预测。这一编码方式与n-gram“数出现次数”的方式有很大不同,不同历史字串可以共享编码结构,因此可以实现非常长距离的上下文建模。 | ||
* GPT-3是一个典型的大规模神经语言模型,采用Transformer结构。这一结构比传统RNN有更强的上下文建模能力,可以极大提高信息窗口的长度,看到遥远历史信息,使生成的词更合理,连贯。 | * GPT-3是一个典型的大规模神经语言模型,采用Transformer结构。这一结构比传统RNN有更强的上下文建模能力,可以极大提高信息窗口的长度,看到遥远历史信息,使生成的词更合理,连贯。 | ||
− | * | + | |
+ | ===机器写小说=== | ||
+ | |||
+ | * 利用大规模语言模型,可以写小说。因为可以照顾到很长的历史,生成的故事前后一致性高,情节合理。 | ||
+ | * 给定一个场景,机器还可以按这个场景把故事编得更符合预期。 |
2023年9月25日 (一) 09:31的最后版本
教学目标
- 了解人类语音的规则性
- 了解语言模型的基础概念
- 理解超长距离语言模型所带来的强大能力
- 理解机器写小说的基本原理
教学内容
人类语言的规律性
- 人类的语言是一套非常高效的符号系统,符合语法和语义的约束。
- 可以将语言过程形式化为一个符号生成过程,只要确定了生成规则,就可以生成符合规则的句子。
- 一般来说,我们可以明确定义语法规则,但语义规则很难确定。因此,依靠规则写小说不太可行。
语言模型
- 语言模型是非常重要概念。本质上,语言模型描述了语言单元之间的约束性,这一约束既包含语法约束, 也包括语义约束。
- 形式上,即基于前序已经句子接后序某一单词的可能性,通常用概率来表示。
- 传统N-gram语言模型采用统计方法,例如bigram P(饭|吃)代表当前面一个词是“吃”,后面一个词是“饭”的可能性。在实际操作中,统计语料中所有“吃”后能接的单词,再看这些单词中“饭”所出现的频率。
- 这一统计模型的缺陷在于无法描述过长的历史,因为历史越长,在语料中出现的可能性越小,统计就失效了。
大规模神经语言模型
- 近年来兴起的大规模神经语言模型是机器可以开始写小说的原因。
- 所谓神经语言模型,就是把历史字串通过神经网络进行编码,再基于这一编码来对下一个词进行预测。这一编码方式与n-gram“数出现次数”的方式有很大不同,不同历史字串可以共享编码结构,因此可以实现非常长距离的上下文建模。
- GPT-3是一个典型的大规模神经语言模型,采用Transformer结构。这一结构比传统RNN有更强的上下文建模能力,可以极大提高信息窗口的长度,看到遥远历史信息,使生成的词更合理,连贯。
机器写小说
- 利用大规模语言模型,可以写小说。因为可以照顾到很长的历史,生成的故事前后一致性高,情节合理。
- 给定一个场景,机器还可以按这个场景把故事编得更符合预期。