教学参考-28

来自cslt Wiki
2023年9月25日 (一) 09:29Cslt讨论 | 贡献的版本

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至: 导航搜索

教学目标

  • 了解人类语音的规则性
  • 了解语言模型的基础概念
  • 理解超长距离语言模型所带来的强大能力
  • 理解机器写小说的基本原理



教学内容

人类语言的规律性

  • 人类的语言是一套非常高效的符号系统,符合语法和语义的约束。
  • 可以将语言过程形式化为一个符号生成过程,只要确定了生成规则,就可以生成符合规则的句子。
  • 一般来说,我们可以明确定义语法规则,但语义规则很难确定。因此,依靠规则写小说不太可行。


语言模型

  • 语言模型是非常重要概念。本质上,语言模型描述了语言单元之间的约束性,这一约束既包含语法约束, 也包括语义约束。
  • 形式上,即基于前序已经句子接后序某一单词的可能性,通常用概率来表示。
  • 传统N-gram语言模型采用统计方法,例如bigram P(饭|吃)代表当前面一个词是“吃”,后面一个词是“饭”的可能性。在实际操作中,统计语料中所有“吃”后能接的单词,再看这些单词中“饭”所出现的频率。
  • 这一统计模型的缺陷在于无法描述过长的历史,因为历史越长,在语料中出现的可能性越小,统计就失效了。

大规模神经语言模型

  • 近年来兴起的大规模神经语言模型是机器可以开始写小说的原因。
  • 所谓神经语言模型,就是把历史字串通过神经网络进行编码,再基于这一编码来对下一个词进行预测。这一编码方式与n-gram“数出现次数”的方式有很大不同,不同历史字串可以共享编码结构,因此可以实现非常长距离的上下文建模。
  • GPT-3是一个典型的大规模神经语言模型,采用Transformer结构。这一结构比传统RNN有更强的上下文建模能力,可以极大提高信息窗口的长度,看到遥远历史信息,使生成的词更合理,连贯。