“FreeNeb commercial project”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
第55行: 第55行:
  
 
**实时语音识别演示代码
 
**实时语音识别演示代码
*** 基于kaldi online代码基线语音识别流式解码代码实现 @Zhiyong Zhang 2018.5.7-2018.5.25
+
*** 基于kaldi online代码基线语音识别流式解码代码实现 @Zhiyong Zhang 2018.5.7-2018.5.25 [done - 2018.5.21]
 
*** 语音识别Server端和client端代码实现 @Mengyuan Zhao 2018.5.7-2018.5.25
 
*** 语音识别Server端和client端代码实现 @Mengyuan Zhao 2018.5.7-2018.5.25
*** 麦克风语音输入代码实现 @Mengyuan Zhao 2018.5.25-2018.6.1
+
*** 麦克风语音输入代码实现 @Mengyuan Zhao @Zhiyong Zhang 2018.5.25-2018.6.1
 
*** 语音识别引擎优化 @Zhiyong Zhang 2018.6.1-2018.6.10
 
*** 语音识别引擎优化 @Zhiyong Zhang 2018.6.1-2018.6.10
  

2018年5月21日 (一) 00:58的版本

In Progress

Project Target Leader Participant plan status risk data
分音塔项目[语音识别]

Mengyuan Zhao

--

  • 2018年 4 月前完成中日语在线语音识别基础服务平台搭建;(done)
  • 2018年 5 月前完成离线中日语语音识别模块;(done)
  • 2018年 6 月前完成在线中日语语音识别引擎优化;(待数据提供)
      旅游日常生活用语场景,安静环境下,在线日语语音识别引擎语音识别准确率达到85%。
      在甲方提供上述应用场景300小时在线语音和50M文本数据的情况下,语音识别准确率达到90%。
  • 2018年 8 月前完成中日语音识别引擎第二阶段优化;
   基于mtk6739 CPU平台的手机实现日语离线语音识别,
   要求语音识别速度在说完话1s内出识别结果,离线识别率不低于在线识别率的80%"
  • 初版在线/离线引擎已提供
    • 已提供模型: 在线版,中文;在线版,日文;离线版,中文;离线版,日文;
  • 日文16k模型训练开始
  • 待解决问题:
  1. 支持自定义热词
国防(航天)合作项目

协助航天二院完成流式语音识别演示demo,并提供技术指导。

Zhiyong Zhang

Zhenlong Han/ Mengyuan Zhao

  • 2018年4月1日-2018年6月15日
    • 完成语音识别国内外研究现状分析报告. [done]
    • 声学模型训练 @韩振龙
      • 开源CVTE模型测试 2018.5.7-2018.5.12 [done]
      • 开源语音数据整理和模型训练 2018.5.7-2018.5.12 [done]
      • 基于CVTE开源模型的KT网络训练 2018.5.14-2018.5.18
      • 协助航天完成clean和noise环境录音 2018.5.14-2018.5.18
      • 开源语音数据data augmentation训练 2018.5.14-2018.5.25
    • 实时语音识别演示代码
      • 基于kaldi online代码基线语音识别流式解码代码实现 @Zhiyong Zhang 2018.5.7-2018.5.25 [done - 2018.5.21]
      • 语音识别Server端和client端代码实现 @Mengyuan Zhao 2018.5.7-2018.5.25
      • 麦克风语音输入代码实现 @Mengyuan Zhao @Zhiyong Zhang 2018.5.25-2018.6.1
      • 语音识别引擎优化 @Zhiyong Zhang 2018.6.1-2018.6.10
  • 2018年6月15日-2018年12月1日
    • 完成智能语音交互代码的开发
    • 完成智能语音交互技术说明书。
  • 已提交《语音识别国内外研究现状分析报告》和《语音标注文档》 @Rong Liu/ @Zhenlong Han
Roobo口语评测及儿童英文识别

Zhiyuan Tang/Shuai Zhang

--

2018.06.10 口语评测引擎打分实时率<0.5

Roobo儿童asr

Mengyuan Zhao/zhiyong Zhang

Zhenglong han/Rong Liu

  • 2018.06.10 第一版asr引擎,demo展示给领导。
  • 模型摸底:提供线上10h测试集,分析目前模型存在问题(AM or LM),(05.11-0.5.15) @梦原
  • 声学模型训练:100h儿童语音标注数据 @梦原
  • 语言模型数据:@金来 05.15 提供
    • 线上asr识别数据10-100G文本;专有领域词(歌曲,故事名等,已提供);通用词典(30w,已提供;top query (每周topxx,所有场景,已提供)
  • 语言模型训练:@刘荣 05.18
    • 词表:领域词表+cslt通用词表 05.14
      • 领域词典:通过100G语料 统计筛选(50->20w)
      • 领域词典 并 cslt通用词典:
    • 模型:领域(100G)lm+通用lm(cslt) 05.17
      • 领域模型,roobo100G query + 领域词表
      • 通用lm,已有模型和对应词表。


同花顺咨询收尾

提供第四期技术咨询

Zhiyong Zhang

Zhenlong Han

待确定日期

已提交《同花顺技术问题及解决方案》及《补充一》、《补充二》文档

ToDo

Project Target Leader Participant plan status Meet Minutes Task Tracing(DeadLine)
Roobo声纹项目合作

A subcompany

Dong Wang/Rong Liu

--

Waiting for new demo version

国网客服项目

Haisheng Dai/Zhiyong Zhang

--


Roobo在线语音识别项目

Mengyuan Zhao

--

美团金融声纹项目

Haisheng Dai

--

驻马店政府项目推进

Dong Wang

--


Past Project

Project Target Leader Participant plan status Meet Minutes Task Tracing(DeadLine)
日本同方声纹项目

Ying Shi

--

日本同方在线语音识别[二期]

Mengyuan Zhao

--