“Auio-Visual Speech Processing (NSFC 62171250)”版本间的差异
来自cslt Wiki
第6行: | 第6行: | ||
*主要参与人:陈琛 | *主要参与人:陈琛 | ||
*内容简介: | *内容简介: | ||
− | + | 本项目旨在研究利用多模态信息提高复杂环境下语音识别性能与效率的理论与方法,即多模态语音识别。多模态语音识别是综合利用音视频等多模态信息对语音文本内容进行识别的技术。当环境高度复杂时,利用多模态信息,特别是视觉信息,是提高语音识别性能的有效方案。为此,本项目提出了“基于信息分解和隐空间概率模型的多模态语音识别方法”。该方法模拟人类对音视频多模态信息的处理方式,对单模态信号进行信息分解以提取发音内容的有效特征,并基于深度生成网络将该特征表达为隐空间中的规范的概率分布,最后基于贝叶斯模型对隐空间中的多模态特征建立统一的概率模型,实现多模态信息的有效融合与协同推理,从而实现在复杂环境下可靠、高效的语音识别系统。 | |
− | + | ||
==成果产出== | ==成果产出== | ||
*CNCVS dataset [http://cncvs.cslt.org] | *CNCVS dataset [http://cncvs.cslt.org] |
2023年6月2日 (五) 05:59的版本
项目信息
- 项目批准号:62171250
- 项目名称: 基于信息分解和隐空间概率模型的多模态语音识别方法
- 负责人:王东
- 主要参与人:陈琛
- 内容简介:
本项目旨在研究利用多模态信息提高复杂环境下语音识别性能与效率的理论与方法,即多模态语音识别。多模态语音识别是综合利用音视频等多模态信息对语音文本内容进行识别的技术。当环境高度复杂时,利用多模态信息,特别是视觉信息,是提高语音识别性能的有效方案。为此,本项目提出了“基于信息分解和隐空间概率模型的多模态语音识别方法”。该方法模拟人类对音视频多模态信息的处理方式,对单模态信号进行信息分解以提取发音内容的有效特征,并基于深度生成网络将该特征表达为隐空间中的规范的概率分布,最后基于贝叶斯模型对隐空间中的多模态特征建立统一的概率模型,实现多模态信息的有效融合与协同推理,从而实现在复杂环境下可靠、高效的语音识别系统。
成果产出
- CNCVS dataset [1]