教学参考-25

来自cslt Wiki
跳转至: 导航搜索

教学目标

  • 了解语音信号的产生过程
  • 理解频谱和共振峰的概念,理解共振峰和发音内容的关系
  • 了解语音识别需要将声学知识和语言知识相结合的基本原则
  • 了解当代语音识别端到端模型框架


教学内容

语音:世界上最美的声音

  • 声音是由物体震动产生的,而语音是声带振动产生的。肺部气流冲声带产生振动,经过口腔和鼻腔组成的声道传导出来,就成了我们听到的语音。
  • 自然界有各种各样的声音,语音在这些声音中只占很小的一部分,但却是最有价值的声音。它的形式极为简单,只是空气的物理振动。然而,在这样简单的振动中却包含了发音人要表达的内容、情绪、发音人个性等各种丰富信息,而听者也可以在很短的时间内理解这些信息。
  • 这种通过声音传递信息的能力是人类在长期进化过程中积累起来的,在动物界是独一无二的。


语音的共振峰结构

  • 语音的产生过程有点儿类似吹箫的过程。吹箫时,人在一端往箫中吹入空气产生震动,这些震动在箫管中传导,并在某些频率上产生谐振(想想对着空瓶的瓶口吹气产生的啸音)。当按住不同箫孔时,谐振的频率会发生变化,从而吹出不同音调的声音。
  • 人在发音时,声带的振动经过口腔传导后同样会在某些频率上产生谐振。人们通过舌头和唇齿的变化来改变声道的特性,从而改变谐振频率并产生不同的发音。
  • 我们可以将语音信号转化成频谱图来观察谐振频率的变化,如右图二所示,其中横轴表示时间,纵轴表示频率,明暗代表在相应时频位置上的能量。可以看到图上有若干颜色较深的横纹,这些模纹即是谐振频率所处的位置,通常称为共振峰。可以看到,随着时间推移,共振峰会发生变化,我们就听到了不同的声音。

语音识别基础

  • 基于语音的生成机理,可以知道不同发音的频谱形式是不同的,基于这一声学特性可以将不同发音区分开来。这一技术称为语音识别。
  • 早期语音识别研究单纯基于声学信息。但人们很快发现,语言信息对识别同样重要。这类似于人在识别时,如果是自己熟悉的内容理解起来会比较容易,否则就算听清了每个发音,理解起来还是很困难。
  • 将声学信息和语言信息结合在一起,就可以较准确地识别语音了。
  • 目前,语音识别在很多场景下已经达到实用程度,如智能手机中的语音助手软件。


现代语音识别模型

  • 虽然语音识别在原则上是可行的,但实现起来依然非常困难,主要原因有三个方面:(1)不确定性,包括发音本身的不确定性和外界干扰;(2)时序性,语音信号是长度不定的时间序列,发音内容前后依赖;(3)知识融合,识别需要考虑发音规律、词法规律、语法规律等多种知识。语音识别近70年的历史即是解决这些困难的历史。
  • 传统语音识别方法多采用统计模型框架,随着深度学习的兴起,端到端建模方法成为主流。
  • 这一方法将语音信号作为输入序列,将对应的文字作为输出序列,建立序列到序列模型。
  • 当数据量足够大时,这一方法可有效解决前述三个主要困难,得到高精度的识别结果。