“Sinovoice-2015-08-18”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
9 话者分离
 
(相同用户的11个中间修订版本未显示)
第1行: 第1行:
== 数据 ==
+
==数据==
第三季度目标
+
*第三季度目标
*语音数据
+
===语音数据===
**数字串的电话录音
+
*数字串
**16K 灵云数据 202H 一直在标注中 平衡?按照数据来源:输入法、导航
+
电话录音
**8K 按照项目走
+
*16K 灵云数据  
 +
202H 一直在标注中 平衡?按照数据来源:输入法、导航
 +
*8K  
 +
按照项目走
 +
===文本数据===
 +
*粤语文本
 +
洗出来是400+M;已训练模型,CER:22%
 
 
*文本数据
+
==2 中文16K==
**粤语文本,洗出来是400+M;已训练模型,CER:22%
+
*第三季度目标 当前WER:93.5%  目标WER:>94.5%
+
===DNN===
==中文16K==
+
*已训练完:基础模型6776小时的,迭代增量790+580小时的DNN模型;
第三季度目标 当前WER:93.5%  目标WER:>94.5%
+
*DNN
+
**已训练完:基础模型6776小时的,迭代增量790+580小时的DNN模型;
+
 
--------------
 
--------------
 
{| class="wikitable" border="1"
 
{| class="wikitable" border="1"
第26行: 第29行:
 
|}
 
|}
 
--------------
 
--------------
数据中有#号,丢字多了;句中有#的也丢掉?weak sil scale测试一下。"
+
数据中有#号,丢字多了;句中有#的也丢掉?weak sil scale测试一下。
"现在总共有8500H左右;准备重新跑一个训练过程;
+
 
 +
*现在总共有8500H左右;准备重新跑一个训练过程;
 
一个single的暂不跑;
 
一个single的暂不跑;
ensemble的解码变好,训练还没有;"
+
ensemble的解码变好,训练还没有;
 
 
准备启动:Random训练,现在是4*1200,增加层好,还是增加节点数好?加2层,用新标的数据来训练;
+
*准备启动:Random训练,现在是4*1200,增加层好,还是增加节点数好?加2层,用新标的数据来训练;
 
暂时没有时间做。
 
暂时没有时间做。
 
考虑:只用实际数据。
 
考虑:只用实际数据。
RNN: "1700+776H LSTM_xent_iter03_910h 27.99  模型训练中
+
 
 +
===RNN===
 +
*1700+776H LSTM_xent_iter03_910h 27.99  模型训练中
 
iter05_
 
iter05_
 
四轮跑完;
 
四轮跑完;
三轮中的一个模型,newschedule
+
 
 +
*三轮中的一个模型,newschedule
 
小LM1e-5(几M),比6000+H的DNN要好,好1个点;
 
小LM1e-5(几M),比6000+H的DNN要好,好1个点;
 
大LM,没有DNN的好;
 
大LM,没有DNN的好;
 +
*MPE的问题:还没有解决
  
MPE的问题:还没有解决"
+
===TagModel===
TagModel:实验室解决技术问题 还没有调出一个好的结果,直接在语言模型上fst调权重,可以出来;
+
*实验室解决技术问题,还没有调出一个好的结果,直接在语言模型上fst调权重,可以出来;
1. lm中加重;
+
# lm中加重;
2. tag,在lm中有的去掉;选择词替换,test数据到lm中试;
+
# tag,在lm中有的去掉;选择词替换,test数据到lm中试;
3. 后处理:替换;
+
# 后处理:替换;
"video Tag,不能加太多;不是Name的去掉;清理Video;
+
梦原:有问题的加入Tag,验证是否有效?
+
晓明:指导数据加工,过滤出有效的数据;
+
  
 +
*video Tag,不能加太多;不是Name的去掉;清理Video;
 +
*梦原:有问题的加入Tag,验证是否有效?
 +
*晓明:指导数据加工,过滤出有效的数据;
 +
<pre>
 
1. 没必要调参数,word vector选词;纠错不行;similary pair;
 
1. 没必要调参数,word vector选词;纠错不行;similary pair;
 
   宁可:纠错词典,下周1之前会有一个简单能用的版本;
 
   宁可:纠错词典,下周1之前会有一个简单能用的版本;
第55行: 第64行:
 
   宁可去掉,不能错放;
 
   宁可去掉,不能错放;
 
   重名?
 
   重名?
 +
</pre>
  
代码有错:fst加tag时串了;修改后,小实验上效果良好;小米的正在进行merge(nest);
+
*代码有错:fst加tag时串了;修改后,小实验上效果良好;小米的正在进行merge(nest);
13万词,加进去并不好;Tag还是需要筛查;
+
*13万词,加进去并不好;Tag还是需要筛查;
如果Tag中的词加入count,是否有效?"
+
*如果Tag中的词加入count,是否有效?
月度语言模型更新: "2015-7月测试,准备上线中:
+
            4月_model_0.05  6月_model        7月_v2c_model
+
New_10000  0.162184350153  0.161849886739  0.16112014838
+
8000        0.0648126819257 0.0649802106674  0.0644148011643
+
10000      0.100338123415  0.100253592561  0.0997464074387
+
新词测试集  0.079495755081  0.0720349884229  0.0689477746334"
+
2015-8月,正在下载语料;
+
领域语言模型: 领域相关模型,类似于声学的mpe,如何描述这个领域?关键词?Grammar?
+
小米项目: TagModel,已做一个模型,经常跑入Tag;对人名、地名的加重不好,不稳定,体验不好;
+
切出小的ngram模型,调整权重;tag先使用句式,再和大的merge;
+
"Tag的权重不好调,统计词的count;
+
赵涛总结句式,准备用造语料的方法,进行lm的训练;
+
加重path路径权重;
+
Word加重,已发给,小韩需要测试;
+
  
上线了一个针对错误,优化(增加语料,对巩俐、张艺谋)
+
===月度语言模型更新===
 +
*2015-7月测试,已上线:
 +
{| class="wikitable" border="1"
 +
|          || 4月_model_0.05  || 6月_model      || 7月_v2c_model
 +
|-
 +
|New_10000  || 0.162184350153  || 0.161849886739  || 0.16112014838
 +
|-
 +
|8000        || 0.0648126819257 || 0.0649802106674 || 0.0644148011643
 +
|-
 +
|10000      || 0.100338123415  || 0.100253592561  || 0.0997464074387
 +
|-
 +
|新词测试集  || 0.079495755081  || 0.0720349884229 || 0.0689477746334"
 +
|}
 +
*2015-8月,正在下载语料;
 +
 
 +
===领域语言模型===
 +
领域相关模型,类似于声学的mpe,如何描述这个领域?关键词?Grammar?
 +
 
 +
===小米项目===
 +
*TagModel:
 +
已做一个模型,经常跑入Tag;对人名、地名的加重不好,不稳定,体验不好;
 +
切出小的ngram模型,调整权重;tag先使用句式,再和大的merge;
 +
Tag的权重不好调,统计词的count;
 +
 
 +
*赵涛总结句式,准备用造语料的方法,进行lm的训练;
 +
*加重path路径权重;
 +
*Word加重,已发给,小韩需要测试;
 +
 
 +
*上线了一个针对错误,优化(增加语料,对巩俐、张艺谋)
 +
<pre>
 
xiaomi_20150813  0.0182
 
xiaomi_20150813  0.0182
 
xiaomi_20150814  0.0175
 
xiaomi_20150814  0.0175
 +
</pre>
  
多选:调试已差不多了,速度也不慢了;"
+
*多选
勤威项目: "数据有问题:8K的保存成了16K,16K的格式,读的比较慢,确认一下数据格式;
+
调试已差不多了,速度也不慢了;"
  
数据重新转了一遍,就没有问题了;
+
===勤威项目===
发布了一个模型:数据62H台湾POI,在6776MPE3上增量"
+
*之前有8K和16K混存的问题,数据重新转了一遍,就没有问题了;
 +
*发布了一个模型:数据62H台湾POI,在6776MPE3上增量"
 
 
+
==中文8K==
+
*第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%)  
中文8K 第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%)  
+
===并行训练===
并行训练 "并行训练:需要新版本cublas的支持;kaldi不支持,需要支持;
+
并行训练:需要新版本cublas的支持;kaldi不支持,需要支持;
 
可以在多个GPU上跑了。2个GPU上比1个快1.6倍;"
 
可以在多个GPU上跑了。2个GPU上比1个快1.6倍;"
Darkknowledge的三种方法: 未标注:soft
+
 
已标注:soft + hard label,diff加权和 实验室是:加权比只有hard会好些。mix训练:未标注+已标注
+
===Darkknowledge===
辽宁移动:DarkKnowledge
+
*三种方法
DarkKnowledge: 辽宁移动: 400h dark knowledge xEnt + MPE, 有标注和无标注的一起训练,
+
<pre>
Mix训练方法:400h迭代优化,加500小时未标注,晓明已训练完,小韩测试效果变差;
+
未标注:soft
分析:应该没有太大的增长,对100小时以内的数据,比较显著;
+
已标注:soft + hard label,diff加权和 实验室是:加权比只有hard会好些。
"有时间再查具体原因;
+
mix训练:未标注+已标注
已基本达标,优先级降低;"
+
</pre>
Ensemble training :* 13 model ensemble training: 30.81%
+
 
解码ensemble decoding,声学部分,对多个模型的声学后验概率合并输出给后面的解码器;
+
*辽宁移动:  
准备训练:分领域,分省;
+
<pre>
8K24省的数据,一共500+,每省20小时左右;
+
400h dark knowledge xEnt + MPE, 有标注和无标注的一起训练,
列出数据的编码类型;晓明找一下思思给出;
+
Mix训练方法:400h迭代优化,加500小时未标注,晓明已训练完,小韩测试效果变差;
训练方法:DNN的标准训练方法;
+
分析:应该没有太大的增长,对100小时以内的数据,比较显著;
数据标注抽检合格率85%;
+
有时间再查具体原因;已基本达标,优先级降低;
优先级低,先搁置,等GPU
+
</pre>
Data selection :* Acoustic-based selection: ubm-decoding done.  
+
 
:* Phonetic-based selection: decoding done.
+
*Ensemble training
没有跑。脚本的效率太慢,准备分布式跑,如果还慢,换C++语言重写;
+
<pre>
脚本还没有再修改;
+
13 model ensemble training: 30.81%
滴滴项目: 声学模型训练:270H的增量训练,大概12日能出来;
+
解码ensemble decoding,声学部分,对多个模型的声学后验概率合并输出给后面的解码器;
"语言模型训练:标注语料,ppl:69;识别率:84%
+
准备训练:分领域,分省;
 +
8K24省的数据,一共500+,每省20小时左右;
 +
列出数据的编码类型;晓明找一下思思给出;
 +
训练方法:DNN的标准训练方法;
 +
数据标注抽检合格率85%;
 +
优先级低,先搁置,等GPU
 +
</pre>
 +
 
 +
*Data selection
 +
Acoustic-based selection: ubm-decoding done.  
 +
Phonetic-based selection: decoding done.
 +
没有跑。脚本的效率太慢,准备分布式跑,如果还慢,换C++语言重写;
 +
脚本还没有再修改;
 +
 
 +
===滴滴项目===
 +
声学模型训练:270H的增量训练,大概12日能出来;
 +
语言模型训练:标注语料,ppl:69;识别率:84%
 
引擎修改多选输出:
 
引擎修改多选输出:
 +
语言声学都优化:ppl:67 识别率84.6%
  
语言声学都优化:ppL:67 识别率84.6%"
+
===平安项目===
平安项目: DNN_xent:1400H + 700H 18.16
+
DNN_xent:1400H + 700H 18.16
DNN_mpe:1400H + 700H 16.87
+
DNN_mpe:1400H + 700H 16.87
"CNN:15.37;梦原给了一个模型,公司这边还没有测试;
+
CNN:15.37;梦原给了一个模型,公司这边还没有测试;
 
引擎模型的打包工具需要修改,还没有修改;"
 
引擎模型的打包工具需要修改,还没有修改;"
RNN:700H LSTM_new-sched_4400h 17.39 训练中
+
 
中英混识 第三季度目标 支持中英混识,对纯中文影响<1%,混识识别率达到纯中文的95%;  
+
===RNN===
8K RNN 1400+100H DNN_xent                  中文:20.83  英文:57.50
+
700H LSTM_new-sched_4400h 17.39 训练中
DNN_xent_ft4200h-hl3      中文:19.52  英文:57.20
+
 
"基本已收敛:17.17% 英文 48.46%
+
==3 中英混识==
"
+
*第三季度目标 支持中英混识,对纯中文影响<1%,混识识别率达到纯中文的95%;  
LSTM_xent_iter08_1270h    中文:17.49  英文:48.06
+
===8K===
8K RNN 1400+300H DNN_xent_ft4200h-hl3  中文:20.56  英文:39.75
+
*RNN 1400+100H
"LSTM_xent_iter04_1340h 中文:18.93  英文:40.08 训练中
+
DNN_xent                  中文:20.83  英文:57.50
 +
DNN_xent_ft4200h-hl3      中文:19.52  英文:57.20
 +
基本已收敛:17.17% 英文 48.46%
 +
 
 +
LSTM_xent_iter08_1270h    中文:17.49  英文:48.06
 +
 
 +
*RNN 1400+300H
 +
DNN_xent_ft4200h-hl3  中文:20.56  英文:39.75
 +
LSTM_xent_iter04_1340h 中文:18.93  英文:40.08 训练中
 
已跑6轮:中文:17.30 英文:38.16"
 
已跑6轮:中文:17.30 英文:38.16"
中文16K远场 第三季度目标 2米有效角度内,WER:>88%
+
 
山东共达 "山东共达:基于Android的一个处理算法,将数据处理一遍,进行模型训练;由于效率比较低,鲁磊正在供应商联系,提供Windows或Linux版本的;
+
==4 中文16K远场==
 +
*第三季度目标 2米有效角度内,WER:>88%
 +
===山东共达===
 +
山东共达:基于Android的一个处理算法,将数据处理一遍,进行模型训练;由于效率比较低,鲁磊正在供应商联系,提供Windows或Linux版本的;
 
是否需要完全模拟远场,进行声音采集或处理?
 
是否需要完全模拟远场,进行声音采集或处理?
  
 
近场变远场:算法有,需要调试;
 
近场变远场:算法有,需要调试;
 
远场变近场:共达提供算法;
 
远场变近场:共达提供算法;
近场数据处理:共达提供算法;"
+
近场数据处理:共达提供算法;
讯的方案:远场处理方案;Mic芯片;
+
 
粤语16K 第三季度目标 目前不支持,目标:支持,WER:>80%
+
===科声讯的方案===
声学模型 已训练完成 130H
+
远场处理方案;Mic芯片;
语言模型 "已拿到数据,开始训练;繁体转简体。
+
 
 +
==粤语16K==
 +
*第三季度目标 目前不支持,目标:支持,WER:>80%
 +
===声学模型===
 +
已训练完成 130H
 +
===语言模型===
 +
已拿到数据,开始训练;繁体转简体。
 
数据质量差?
 
数据质量差?
 
网页下载繁体;确认是否是粤语字?
 
网页下载繁体;确认是否是粤语字?
 
 
PPL:1000+"
 
PPL:1000+"
粤语8K 目标 WER:>65%
+
 
声学模型 "需要标注语料,正在招标注员、验收员
+
==粤语8K==
考题,进行招聘;"
+
*目标 WER:>65%
语言模型 "语言模型训练完了,测试结果:
+
===声学模型===
 +
*需要标注语料,正在招标注员、验收员,进行招聘;"
 +
*语言模型 "语言模型训练完了,测试结果:
 
16K模型:字错误率21.78
 
16K模型:字错误率21.78
 
8k模型:字错误率22.0
 
8k模型:字错误率22.0
第152行: 第214行:
 
维语16K WER:85%
 
维语16K WER:85%
 
 
维语8K 第三季度目标 目前不支持,目标:支持,WER:>65%
+
==维语8K==
声学模型 已训练35小时;借用梦原的模型;用16K的lm Model,30%左右;
+
*第三季度目标 目前不支持,目标:支持,WER:>65%
语言模型 "和新疆大学调试:公司Word;实验室
+
===声学模型===
 +
已训练35小时;借用梦原的模型;用16K的lm Model,30%左右;
 +
===语言模型===
 +
和新疆大学调试:公司Word;实验室
 
35H标注文本数据已提供实验室处理;
 
35H标注文本数据已提供实验室处理;
 
toolkit做完了,维语句子转成monphone串;"
 
toolkit做完了,维语句子转成monphone串;"
情感识别 第三季度目标 目前:识别生气,正确率<30%;目标破:识别生气:16K >65%; 8K >60%;
 
OpenEar产品化 待引擎产品化;
 
8K模型训练 开发完引擎,选取语料,进行标注;
 
话者分离 第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行
 
DNN端点检测 "之前训练的4*300*2的端点检测模型,实时率得到提升,占整个RT的4%左右,但是正确率相对于大模型下降,大模型82%,小模型70%;
 
正在训练新的端点检测模型:4*400+500;MPE的前处理,预计:2天左右能出MPE1;
 
  
 +
==8 情感识别==
 +
*第三季度目标 目前:识别生气,正确率<30%;目标破:识别生气:16K >65%; 8K >60%;
 +
 +
===OpenEar产品化===
 +
待引擎产品化;
 +
 +
===8K模型训练===
 +
开发完引擎,选取语料,进行标注;
 +
 +
==9 话者分离==
 +
*第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行
 +
===DNN端点检测===
 +
*之前训练的4*300*2的端点检测模型,实时率得到提升,占整个RT的4%左右,但是正确率相对于大模型下降,大模型82%,小模型70%;
 +
*正在训练新的端点检测模型:4*400+500;MPE的前处理,预计:2天左右能出MPE1;
 +
<pre>
 
引擎版本 字错误率
 
引擎版本 字错误率
 
R925 cer:0.229239308333;
 
R925 cer:0.229239308333;
第171行: 第245行:
 
R925 all total:3429752.000000 correct:0.824830
 
R925 all total:3429752.000000 correct:0.824830
 
r946 all total:3409079.000000 correct:0.773867"
 
r946 all total:3409079.000000 correct:0.773867"
声纹识别: 第三季度目标 数字串串长6的EER<1%;支持百万级的实时辨识;
+
</pre>
数字串模型训练 正在采集数字串语音数据,预期本月内完成;
+
 
TZNorm算法 TZNorm算法,与预期不符,检查算法的正确性;
+
==声纹识别==
聚类分类算法 基于Affinity距离的算法研究
+
*第三季度目标 数字串串长6的EER<1%;支持百万级的实时辨识;
D-Vector
+
*数字串模型训练 正在采集数字串语音数据,预期本月内完成;
 +
*TZNorm算法 TZNorm算法,与预期不符,检查算法的正确性;
 +
*聚类分类算法 基于Affinity距离的算法研究
 +
*D-Vector

2015年8月24日 (一) 10:51的最后版本

数据

  • 第三季度目标

语音数据

  • 数字串

电话录音

  • 16K 灵云数据

202H 一直在标注中 平衡?按照数据来源:输入法、导航

  • 8K

按照项目走

文本数据

  • 粤语文本

洗出来是400+M;已训练模型,CER:22%

2 中文16K

  • 第三季度目标 当前WER:93.5% 目标WER:>94.5%

DNN

  • 已训练完:基础模型6776小时的,迭代增量790+580小时的DNN模型;

7月_v2c_6776MPE3 v2c_1372H_inc_MPE2 v2c_1372H_inc_MPE2(0.97)
New_10000 0.16112014838 0.16241239339 0.159341411132
8000 0.0644148011643 0.0642472724227 0.0623416329864
10000 0.0997464074387 0.0994082840237 0.0952451394759
新词测试集 0.0689477746334 0.0761512734757 0.0771803447389

数据中有#号,丢字多了;句中有#的也丢掉?weak sil scale测试一下。

  • 现在总共有8500H左右;准备重新跑一个训练过程;

一个single的暂不跑; ensemble的解码变好,训练还没有;

  • 准备启动:Random训练,现在是4*1200,增加层好,还是增加节点数好?加2层,用新标的数据来训练;

暂时没有时间做。 考虑:只用实际数据。

RNN

  • 1700+776H LSTM_xent_iter03_910h 27.99 模型训练中

iter05_ 四轮跑完;

  • 三轮中的一个模型,newschedule

小LM1e-5(几M),比6000+H的DNN要好,好1个点; 大LM,没有DNN的好;

  • MPE的问题:还没有解决

TagModel

  • 实验室解决技术问题,还没有调出一个好的结果,直接在语言模型上fst调权重,可以出来;
  1. lm中加重;
  2. tag,在lm中有的去掉;选择词替换,test数据到lm中试;
  3. 后处理:替换;
  • video Tag,不能加太多;不是Name的去掉;清理Video;
  • 梦原:有问题的加入Tag,验证是否有效?
  • 晓明:指导数据加工,过滤出有效的数据;
1. 没必要调参数,word vector选词;纠错不行;similary pair;
   宁可:纠错词典,下周1之前会有一个简单能用的版本;
2. 分类:word vector 人名 电视剧名 电影名;
   宁可去掉,不能错放;
   重名?
  • 代码有错:fst加tag时串了;修改后,小实验上效果良好;小米的正在进行merge(nest);
  • 13万词,加进去并不好;Tag还是需要筛查;
  • 如果Tag中的词加入count,是否有效?

月度语言模型更新

  • 2015-7月测试,已上线:
4月_model_0.05 6月_model 7月_v2c_model
New_10000 0.162184350153 0.161849886739 0.16112014838
8000 0.0648126819257 0.0649802106674 0.0644148011643
10000 0.100338123415 0.100253592561 0.0997464074387
新词测试集 0.079495755081 0.0720349884229 0.0689477746334"
  • 2015-8月,正在下载语料;

领域语言模型

领域相关模型,类似于声学的mpe,如何描述这个领域?关键词?Grammar?

小米项目

  • TagModel:

已做一个模型,经常跑入Tag;对人名、地名的加重不好,不稳定,体验不好; 切出小的ngram模型,调整权重;tag先使用句式,再和大的merge; Tag的权重不好调,统计词的count;

  • 赵涛总结句式,准备用造语料的方法,进行lm的训练;
  • 加重path路径权重;
  • Word加重,已发给,小韩需要测试;
  • 上线了一个针对错误,优化(增加语料,对巩俐、张艺谋)
xiaomi_20150813   0.0182
xiaomi_20150814   0.0175
  • 多选

调试已差不多了,速度也不慢了;"

勤威项目

  • 之前有8K和16K混存的问题,数据重新转了一遍,就没有问题了;
  • 发布了一个模型:数据62H台湾POI,在6776MPE3上增量"

中文8K

  • 第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%)

并行训练

并行训练:需要新版本cublas的支持;kaldi不支持,需要支持; 可以在多个GPU上跑了。2个GPU上比1个快1.6倍;"

Darkknowledge

  • 三种方法
未标注:soft
已标注:soft + hard label,diff加权和 实验室是:加权比只有hard会好些。
mix训练:未标注+已标注
  • 辽宁移动:
400h dark knowledge xEnt + MPE, 有标注和无标注的一起训练,
Mix训练方法:400h迭代优化,加500小时未标注,晓明已训练完,小韩测试效果变差;
分析:应该没有太大的增长,对100小时以内的数据,比较显著;
有时间再查具体原因;已基本达标,优先级降低;
  • Ensemble training
13 model ensemble training: 30.81%
解码ensemble decoding,声学部分,对多个模型的声学后验概率合并输出给后面的解码器;
准备训练:分领域,分省;
8K24省的数据,一共500+,每省20小时左右;
列出数据的编码类型;晓明找一下思思给出;
训练方法:DNN的标准训练方法;
数据标注抽检合格率85%;
优先级低,先搁置,等GPU
  • Data selection

Acoustic-based selection: ubm-decoding done. Phonetic-based selection: decoding done. 没有跑。脚本的效率太慢,准备分布式跑,如果还慢,换C++语言重写; 脚本还没有再修改;

滴滴项目

声学模型训练:270H的增量训练,大概12日能出来; 语言模型训练:标注语料,ppl:69;识别率:84% 引擎修改多选输出: 语言声学都优化:ppl:67 识别率84.6%

平安项目

DNN_xent:1400H + 700H 18.16 DNN_mpe:1400H + 700H 16.87 CNN:15.37;梦原给了一个模型,公司这边还没有测试; 引擎模型的打包工具需要修改,还没有修改;"

RNN

700H LSTM_new-sched_4400h 17.39 训练中

3 中英混识

  • 第三季度目标 支持中英混识,对纯中文影响<1%,混识识别率达到纯中文的95%;

8K

  • RNN 1400+100H

DNN_xent 中文:20.83 英文:57.50 DNN_xent_ft4200h-hl3 中文:19.52 英文:57.20 基本已收敛:17.17% 英文 48.46%

LSTM_xent_iter08_1270h 中文:17.49 英文:48.06

  • RNN 1400+300H

DNN_xent_ft4200h-hl3 中文:20.56 英文:39.75 LSTM_xent_iter04_1340h 中文:18.93 英文:40.08 训练中 已跑6轮:中文:17.30 英文:38.16"

4 中文16K远场

  • 第三季度目标 2米有效角度内,WER:>88%

山东共达

山东共达:基于Android的一个处理算法,将数据处理一遍,进行模型训练;由于效率比较低,鲁磊正在供应商联系,提供Windows或Linux版本的; 是否需要完全模拟远场,进行声音采集或处理?

近场变远场:算法有,需要调试; 远场变近场:共达提供算法; 近场数据处理:共达提供算法;

科声讯的方案

远场处理方案;Mic芯片;

粤语16K

  • 第三季度目标 目前不支持,目标:支持,WER:>80%

声学模型

已训练完成 130H

语言模型

已拿到数据,开始训练;繁体转简体。 数据质量差? 网页下载繁体;确认是否是粤语字? PPL:1000+"

粤语8K

  • 目标 WER:>65%

声学模型

  • 需要标注语料,正在招标注员、验收员,进行招聘;"
  • 语言模型 "语言模型训练完了,测试结果:

16K模型:字错误率21.78 8k模型:字错误率22.0 测试集采用的是海天润声给的样本数据,从16k转8k。" 维语16K WER:85%

维语8K

  • 第三季度目标 目前不支持,目标:支持,WER:>65%

声学模型

已训练35小时;借用梦原的模型;用16K的lm Model,30%左右;

语言模型

和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;"

8 情感识别

  • 第三季度目标 目前:识别生气,正确率<30%;目标破:识别生气:16K >65%; 8K >60%;

OpenEar产品化

待引擎产品化;

8K模型训练

开发完引擎,选取语料,进行标注;

9 话者分离

  • 第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行

DNN端点检测

  • 之前训练的4*300*2的端点检测模型,实时率得到提升,占整个RT的4%左右,但是正确率相对于大模型下降,大模型82%,小模型70%;
  • 正在训练新的端点检测模型:4*400+500;MPE的前处理,预计:2天左右能出MPE1;
引擎版本 字错误率
R925 cer:0.229239308333;
r946 cer:0.253077634669;

引擎版本 话者分离总时长        正确率
R925 all total:3429752.000000 correct:0.824830
r946 all total:3409079.000000 correct:0.773867"

声纹识别

  • 第三季度目标 数字串串长6的EER<1%;支持百万级的实时辨识;
  • 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
  • TZNorm算法 TZNorm算法,与预期不符,检查算法的正确性;
  • 聚类分类算法 基于Affinity距离的算法研究
  • D-Vector