“Sinovoice-2016-2-25”版本间的差异
(以“==数据== *16K 灵云数据 10000小时实际语料的标注目标,已立项400小时的标注; 语料从1000小时中,通过ASR打分,取出中间的400...”为内容创建页面) |
|||
第89行: | 第89行: | ||
找一个TestCase,怎么都调不回来的。(灵云输入法前面丢字) | 找一个TestCase,怎么都调不回来的。(灵云输入法前面丢字) | ||
16K的少些,8K的比较多; | 16K的少些,8K的比较多; | ||
+ | |||
+ | 平安100小时客户模型: | ||
+ | <pre> | ||
+ | new 100小时Inc,只替换声学模型 100小时Inc,替换声学语言模型 | ||
+ | Agent User Entire pingan_kf_1h pingan_kh_1h Agent User Entire pingan_kf_1h pingan_kh_1h Agent User Entire pingan_kf_1h pingan_kh_1h | ||
+ | 0.1069 0.3518 0.1495 0.11249 0.3629 0.1442 0.0641 0.3307 0.11861 0.3427 0.1523 0.0664 0.324 | ||
+ | 0.1095 0.3636 0.1403 0.0728 0.3756 0.11618 0.3577 0.1445 0.07501 0.3623 0.12014 0.357 0.1476 0.0779 0.35871 | ||
+ | </pre> | ||
===嵌入式=== | ===嵌入式=== | ||
第96行: | 第104行: | ||
16k 嵌入式模型最新结果如下: | 16k 嵌入式模型最新结果如下: | ||
------------------------------------------------------------------------------- | ------------------------------------------------------------------------------- | ||
− | + | | nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE | chain | | |
− | test_8000ju | 16.12 | + | test_8000ju | 16.12 | 11.31 | 14.89 | 12.77 | 11.74 | |
test_10000ju | 28.83 | 23.82 | 27.43 | 25.05 | 22.35 | | test_10000ju | 28.83 | 23.82 | 27.43 | 25.05 | 22.35 | | ||
------------------------------------------------------------------------------- | ------------------------------------------------------------------------------- | ||
第121行: | 第129行: | ||
<pre> | <pre> | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
(1) 现在Chain model在大数据上遇到的瓶颈看起来是用的TDNN前端。应该改用LSTM前端以描述状态。 | (1) 现在Chain model在大数据上遇到的瓶颈看起来是用的TDNN前端。应该改用LSTM前端以描述状态。 | ||
(2) LSTM对特征context不足,应结合TDNN | (2) LSTM对特征context不足,应结合TDNN |
2016年2月25日 (四) 05:40的版本
目录
数据
- 16K 灵云数据
10000小时实际语料的标注目标,已立项400小时的标注; 语料从1000小时中,通过ASR打分,取出中间的400小时;
任务优先 覆盖优先
领域和口音或信道的覆盖性!!! Darkknowledge方法 标注:听不懂的掠过;
- 粤语标注了一个测试集,增量9小时,CER:54%;30h,50%
60h trained. no tag text to lm, CER 45% discard english text;
- 维语
已完成120小时;last train 50h; 目标200小时; 16K标注,灵云,180小时,收集验收;
大模型
1)16K10000小时的跑一个DNN训练,加深加宽:7层2400x10000 rectifier 保留英文
MPE的训练: Condition: LM:1e-5/1e-9
test_8000ju test_10000ju 6000H 600*4_800 xEnt : 15.16 28.03 6000H 600*4_800 mpe : 12.09 23.51 6776H 1200*4_10000 mpe : 9.48 18.07 10000H 600*4_800 xEnt(迭代21轮) : 15.91 10000H 600*4_800 xEnt(迭代完成) : 15.56 26.71 10000H 2048*7_12000 xEnt(迭代1.7轮) : 10.12 10000H 2048*7_12000 xEnt(迭代2.6轮) : 9.73 10000H 2048*7_12000 xEnt(迭代3.8轮) : 9.51 10000H 2048*7_12000 xEnt(迭代5.1轮) : 9.53 10000H 2048*7_12000 xEnt(迭代6.0轮) : 9.41 17.75 10000H 2048*7_12000 xEnt(700.mdl ) : 9.35 17.71 10000H 2048*7_12000 xEnt(800.mdl ) : 9.27 17.57 10000H 2048*7_12000 xEnt(900.mdl ) : 9.20 17.51 10000H 2048*7_12000 xEnt(965.mdl ) : 9.20 17.60 10000H 2048*7_12000 200H mpe(2.mdl ) : 8.80 15.99 10000H 2048*7_12000 200H mpe(8.mdl ) : 8.71 15.91 10000H 2048*7_12000 1000H mpe(13.mdl) : 8.60 15.84
10000H 2048*7_12000 1000H mpe(13.mdl) : 8.60 15.84 10000H 2048*7_12000 1000H mpe(17.mdl) : 8.46 15.76 10000H 2048*7_12000 1000H mpe(26.mdl) : 8.47 15.71 10000H 2048*7_12000 1000H mpe(35.mdl) : 8.43 15.84 10000H 2048*7_12000 1000H mpe(42.mdl) : 8.40 15.87 10000H 2048*7_12000 1000H mpe(56.mdl) : 8.49 15.96
10000H 2048*7_6565 chain (2700.mdl) : 8.90 17.51
10000小时MPE,开跑,但是提升空间不大。
2)8K 领域模型,领域通用:设备 7层TDNN2048x10000,含有英文 信道、口音
华为V3信道压缩:4000小时,GMM
结果如下: | | BJYD | JS2h |ShaanXi2h| ShanXi2h|huaweiFuCe|UnKnown2h| | nnet1 1400h MPE | 22.49 | 19.81 | 19.63 | 21.90 | 16.72 | 22.00 | | nnet1 4200h xEnt | 26.89 | 19.90 | 25.43 | 26.90 | 16.15 | 24.13 | | nnet1 4200h MPE | 24.53 | 18.39 | 22.82 | 23.97 | 14.22 | 21.35 |
8k:
huaweiFuCe nnet3_xEnt 7*2048+8393 : 14.61 chain 7*2048+6558 200.mdl: 17.83 chain 400.mdl: 17.09 chain 600.mdl: 18.13 chain 800.mdl: 19.05
在A01辽宁移动测试集上的实验结果:
dnn模型(mpe增量训练后): 22.39
华为信道模型: 20.26
用辽宁移动数据在华为信道模型上做增量(6 mdl): 18.16
用辽宁移动数据在华为信道模型上做增量(16 mdl): 17.85
平安提高1个点;客户测试集提升3个点; 分析一下客户错误的原因?在LM上提升。是否有奇怪的噪声。
丢字问题:远端被识别为噪音。 sil_scale可以捞一些回来。 postscale乘法?指数? 找一个TestCase,怎么都调不回来的。(灵云输入法前面丢字) 16K的少些,8K的比较多;
平安100小时客户模型:
new 100小时Inc,只替换声学模型 100小时Inc,替换声学语言模型 Agent User Entire pingan_kf_1h pingan_kh_1h Agent User Entire pingan_kf_1h pingan_kh_1h Agent User Entire pingan_kf_1h pingan_kh_1h 0.1069 0.3518 0.1495 0.11249 0.3629 0.1442 0.0641 0.3307 0.11861 0.3427 0.1523 0.0664 0.324 0.1095 0.3636 0.1403 0.0728 0.3756 0.11618 0.3577 0.1445 0.07501 0.3623 0.12014 0.357 0.1476 0.0779 0.35871
嵌入式
* 10000h-chain 5*400+800 has been training. * Dark-knowledge training scripts ready
16k 嵌入式模型最新结果如下:
| nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE | chain |
test_8000ju | 16.12 | 11.31 | 14.89 | 12.77 | 11.74 | test_10000ju | 28.83 | 23.82 | 27.43 | 25.05 | 22.35 |
LM = 1e-5, 1e-9 biglm, beam = 13
| nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE | chain |
test_8000ju | 16.12 | 11.31 | 14.89 | 12.77 | 11.10 | test_10000ju | 28.83 | 23.82 | 27.43 | 25.05 | 21.33 |
前4个模型结构是4*600+800,chain模型结构是5*400+800。 与nnet1_MPE相比,chain模型在8000ju上稍差,但在10000句上已经明显超过了。 目前chain模型训练还没结束,10000h数据大约过了2遍,不到总进度的1/3,但估计再往后的提升不会太显著了。
MPE没有做完;
TDNN+CTC 10000小时16K 8K5000小时Chain 16K10000小时Chain
TDDN -> Context -> 类CTC
(1) 现在Chain model在大数据上遇到的瓶颈看起来是用的TDNN前端。应该改用LSTM前端以描述状态。 (2) LSTM对特征context不足,应结合TDNN (3) LSTM不必特别多层,也不必所有gate都用上,只要能描述状态变化即可。 (4) 倾向构造这样的结构,底层是TDNN,高层是LSTM,LSTM只有一层即可,同时尽可能简化。 LSTM+TDNN+Chain大模型中加入状态的信息; 一周 Lattice-Alignment (5) TDNN + state + Chain objective或许会比TDNN+state后接MPE有所提高。或者,一个类似的CTC+MPE objective function.
新松机器人:
接口
TagModel
- 加重path或词边:组合词,lm中加重; 晓明、小韩
- 新词加重及添加
勤威项目
- 发布了一个模型:数据62H台湾POI,在6776MPE3上增量;词表量250多万,识别不好;
省市路,分词,句式:tag的方法来做。 晓明 需要测试集,数据中心14日标完。
语音自适应
针对个人的 能提高2~3%(基数CER约10%) 客户端提取ivector,传给服务器;
End-To-End/CTC
Kaldi-nnet1, Kaldi-CTC, Kaldi-Chain and Eesen on WSJ. If GPU Parallel, then on grid-12 and grid-13. mpe-2 means method that considering Transition instead of CctcTransition when mpe, while mpe-1 means method that considering CctcTransition.
model %WER (test_eval92) %WER (after MPE)
kaldi/nnet1/dnn_2048_4(cd-dnn-hmm) 4.18
kaldi/ctc/decode_bd_tgpr_plm0.15 8.01 kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter1 7.78 kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter2 __7.73__
Test CTC-mpe (considering CctcTransition) on aurora4.
model %WER learning rate
kaldi/ctc/decode_bd_tgpr_plm0.15 13.86 kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter1 12.70 0.0002 kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter2 12.28 kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter3 12.43 kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter4 12.34
CTC MPE上已成功。 原理上:CTC+MMI = Chain
粤语16K
声学模型
已训练完成 130H
语言模型
下载语料,训练模型,PPL:1000+ 16K模型:字错误率21.78
粤语8K
69小时的(CER28%) FreeTalk 90小时的(CER27.5%)质检 190小时,73%
英文单词还没有加(英文的标音:用粤语的音素标); 粤英文的模型,需要训练; 句子长,有两句,将CER拉下来了,分析这两句。
维语8K
声学模型
已训练35小时;借用梦原的模型;用16K的lm Model,WER:30%左右;
语言模型
和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;
发布了一个维语模型,需要识别标注语料,发布的是word模型: model_35h_20150828 CER:0.419693683925
导出64小时,声学和语言模型进行优化。
声纹识别
- 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
- 聚类分类算法 基于Affinity距离的算法研究
- D-Vector
- 短语音的识别:
数字模型:单独训练,ivector和plda需要用数字需要训练。 之前录得语料,独立人只有100人; 16K的找到一个1200人的数据,从中挑选; 8K的采购;但是音量小,是否会有影响?
真实场景下的测试集?考勤机里面的数据整理出来。 考勤机Adaptation训练。
8个Phone和1个Tele的录音模型已训练完; 跨信道,阈值不一致; 需要解决跨信道的识别问题;
手机和固定电话,需要分开测试; ubm256,需要加大; 组织一下数据,跑D-vector实验;
测试集,真实场景的
考勤系统,mic指定; 定制背景模型;
加入情绪,场景的分析,分类的分析;
将测试数据加入训练,看是否有提高?
使用条件的问题:
音量的影响? 背景噪音:如大厅中,人声噪杂的影响?
信道适应? 端点检测 Mic信道 背景噪音
端点检测,信噪比计算; 发音方式:坐着、站着
PLDA adaptation