教学参考-28

来自cslt Wiki

2023年9月25日 (一) 09:29Cslt（讨论 | 贡献）的版本

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)

跳转至：导航、搜索

目录

1 教学目标
2 教学内容

教学目标

了解人类语音的规则性
了解语言模型的基础概念
理解超长距离语言模型所带来的强大能力
理解机器写小说的基本原理

教学内容

人类语言的规律性

人类的语言是一套非常高效的符号系统，符合语法和语义的约束。
可以将语言过程形式化为一个符号生成过程，只要确定了生成规则，就可以生成符合规则的句子。
一般来说，我们可以明确定义语法规则，但语义规则很难确定。因此，依靠规则写小说不太可行。

语言模型

语言模型是非常重要概念。本质上，语言模型描述了语言单元之间的约束性，这一约束既包含语法约束，也包括语义约束。
形式上，即基于前序已经句子接后序某一单词的可能性，通常用概率来表示。
传统N-gram语言模型采用统计方法，例如bigram P(饭|吃)代表当前面一个词是“吃”，后面一个词是“饭”的可能性。在实际操作中，统计语料中所有“吃”后能接的单词，再看这些单词中“饭”所出现的频率。
这一统计模型的缺陷在于无法描述过长的历史，因为历史越长，在语料中出现的可能性越小，统计就失效了。

大规模神经语言模型

近年来兴起的大规模神经语言模型是机器可以开始写小说的原因。
所谓神经语言模型，就是把历史字串通过神经网络进行编码，再基于这一编码来对下一个词进行预测。这一编码方式与n-gram“数出现次数”的方式有很大不同，不同历史字串可以共享编码结构，因此可以实现非常长距离的上下文建模。
GPT-3是一个典型的大规模神经语言模型，采用Transformer结构。这一结构比传统RNN有更强的上下文建模能力，可以极大提高信息窗口的长度，看到遥远历史信息，使生成的词更合理，连贯。

取自“http://index.cslt.org/mediawiki/index.php?title=教学参考-28&oldid=40728”