教学参考-26

教学目标

人的听觉系统是个非常精巧的频率分解器。声音传入耳朵后，经过鼓膜传入内耳，在一个称为耳蜗的组织内部形成感知。耳蜗具有螺旋形结构，不同位置感知的频率成分不同，外部感知高频声音，内部感知低频声音。正是基于这种频率分解能力，我们才能听到大千世界的美妙声音。
那么，人们如何通过声音来判断发音人呢？我们知道，语音是由声带产生的震动经过口鼻形成的声道传导生成的。不同人的声门和声道都存在差异，因此不论是声带本身的振动还是声道的传导特性都有所不同，反应到声音信号中，即形成不同的频率分布特性。有趣的是，人的耳朵可以轻松识别出不同人的分布特性，从而判断发音人的身份。
研究表明，人耳对熟悉的人辨别能力很强，“嗯”一声即可判断出来，但对不熟的人则没有那么强的判断力。

基于人的听声辨人能力，研究者很早就希望通过机器来实现基于声音的身份认证。1962年，贝尔实验室的Lawrence G. Kersta在《自然》杂志发表一篇题为《声纹辨认》的论文，认为声音具有和指纹一样的身份标识能力，并将声音中包含的发音人信息称为“声纹”。
“声纹” 一词形象地表示了发音人在声音上的特异性：世界上没有任何两个人的声音是完全相同的，即使一对双胞胎的声音也是不同的，这一点和指纹很相似。不同的是，指纹从出生后就确定了，声音却可能随时随地发生变化。到目前为止，人们还没有发现声音中和人一一对应的、一生保持不变的“声纹”。
尽管如此，声纹识别（更被研究界接受的说法是“说话人识别”）一直受到业界重视。这是因为声纹作为生物认证手段具有若干优势：和指纹、掌纹相比，声纹采集不需要接触；和人脸相比，声纹隐私泄露低；和虹膜相比，声纹设备更便宜，采集更方便。最后，在众多生物验证方式中，只有声音是人主动发出的，因此可确保验证意图的真实性，防止被人盗用。

现代声纹识别采用深度学习方法，首先收集大规模人群的发音数据，再训练一个深度神经网络来提取与说话人相关的显著特征。和早期基于统计概率模型方法相比，这种神经网络方法一般具有更好的抗干扰能力，在实际应用中表现出更优越的性能。
如右图一所示，将一段语音输入一个神经网络，网络输出为训练集中的发音人，网络训练的目的是使得对应发音人节点上的输出更大，而其他发音人节点上的输出更小。训练完成以后，网络倒数第一层或倒数第二层的激发值组成 “说话人向量”。
右图二给出神经网络模型生成的一组说话人向量，其中每个点代表一个发音片段，每种颜色代表一个发音人。可以看到，同一个发音人的说话人向量聚集在一起，说明该向量具有很好的发音人区分性。基于说话人向量，即可判断两个发音片段是否属于同一个人（说话人确认），或某个发音片段属于人群中的哪一个（说话人辨认）。
目前，声纹识别技术已经有一些商业应用，但总体来说性能还有待加强，特别是复杂环境下（如远场、噪音、跨领域）的识别效果距离实用还有较大差距。如果将声纹识别和其它生物认证技术（如人脸识别）相结合，则有望显著提高认证的可靠性。

声音很早就作为刑侦手段和司法证据。美国1994年电影《燃眉追击》中就描述了这样一个场景：一位听音专家听到一小段录音，确定说话人的特征为“古巴人，35-45岁之间，在美国东部受的教育…”，然后这段录音被送到一台超级计算机中和一个嫌疑人的视频做比对，可信度为90.1%。这一具有夸张性的故事情节反映了人们对声音在司法领域作用的期待。
目前，声纹在司法实践中的应用方式主要有两种：一是用计算机对声音进行初步分析，得到重音，基频，共振峰位置等特征，再由人类专家利用这些特征进行判断，二是直接让声纹识别系统做出判断。
总体来说，声纹作为辅助证据对司法实践有很大帮助，但也带来巨大风险。2001年，经DNA检验，美国人David Shawn Pope因性侵害入狱15年后被无罪释放，而当初定罪的部分原因就是声纹分析。