“Sinovoice-2015-12-30”版本间的差异
第10行: | 第10行: | ||
60h trained. no tag text to lm, CER 45% | 60h trained. no tag text to lm, CER 45% | ||
discard english text; | discard english text; | ||
− | |||
*维语 | *维语 | ||
已完成120小时;last train 50h; | 已完成120小时;last train 50h; | ||
+ | 16K标注,灵云,180小时,收集验收; | ||
===大模型=== | ===大模型=== | ||
第23行: | 第23行: | ||
拷贝一份,启动8个job; | 拷贝一份,启动8个job; | ||
原来的继续;进行MPE; | 原来的继续;进行MPE; | ||
+ | 生成lattice,还没有开始跑; | ||
MPE的训练: | MPE的训练: | ||
第28行: | 第29行: | ||
小数据过拟合,大数据再看下结果; | 小数据过拟合,大数据再看下结果; | ||
− | 2)8K 领域模型,领域通用:设备 | + | 2)8K 领域模型,领域通用:设备 7层TDNN2048x10000,含有英文 信道、口音 |
华为V3信道压缩:4000小时,GMM | 华为V3信道压缩:4000小时,GMM | ||
− | |||
分成了100份 | 分成了100份 | ||
识别率下降:下降1-2个点;网络结构增大; | 识别率下降:下降1-2个点;网络结构增大; | ||
MPE今天跑起来一个;用Context有问题的脚本先跑起来; | MPE今天跑起来一个;用Context有问题的脚本先跑起来; | ||
− | + | 生成lattice已完成; | |
− | + | aliment,MPE中间会输出模型,测试识别率;6台机器; | |
+ | 4天一个Model; | ||
===嵌入式=== | ===嵌入式=== | ||
第47行: | 第48行: | ||
小模型测试,cer20+; | 小模型测试,cer20+; | ||
bigLM的生成还有问题! | bigLM的生成还有问题! | ||
− | |||
− | |||
− | |||
− | |||
− | |||
深度的影响更大,宽度相对较小; | 深度的影响更大,宽度相对较小; | ||
第61行: | 第57行: | ||
生成lattice,训练MPE,转格式专用空间太大,修改脚本,降低存储空间; | 生成lattice,训练MPE,转格式专用空间太大,修改脚本,降低存储空间; | ||
+ | 变差:从27变为30; | ||
+ | 分100分,内部random; | ||
+ | |||
+ | MPE重新训练: | ||
+ | global shuffle:重新分组; | ||
+ | external lattice,加速,为MPE准备 | ||
+ | 每天晚上之前跑起来; | ||
解码效率: | 解码效率: | ||
第66行: | 第69行: | ||
===TagModel=== | ===TagModel=== | ||
− | + | *加重path或词边:组合词,lm中加重; 晓明、小韩 | |
− | + | Path加重,修改fst; | |
− | + | 测试加重“xx导演的巩俐演的”; | |
− | + | Word Vector:分堆 加词表的15万; | |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
*识别后处理 | *识别后处理 | ||
已知道这个词错了,可以处理。不知时,还需要处理? | 已知道这个词错了,可以处理。不知时,还需要处理? | ||
第114行: | 第95行: | ||
100小时验证和预期的差不多,但是大数据和大的LM上,还需要验证。 | 100小时验证和预期的差不多,但是大数据和大的LM上,还需要验证。 | ||
CTC Kaldi版本,并行的算法完成,在1400h上跑并行。 | CTC Kaldi版本,并行的算法完成,在1400h上跑并行。 | ||
− | + | 小汤,目前已超过DNN,MPE:NET3已跑起来。 | |
LSTM | LSTM | ||
− | |||
− | |||
训练数据的并行读取问题?Hadoop?分布式磁盘?特征+lattice | 训练数据的并行读取问题?Hadoop?分布式磁盘?特征+lattice | ||
第168行: | 第147行: | ||
<pre> | <pre> | ||
测试集 iv200_digital_8p1t_vox_8k_new_model iv200_digital_mobile_tele_vox_8k | 测试集 iv200_digital_8p1t_vox_8k_new_model iv200_digital_mobile_tele_vox_8k | ||
− | 20_people_same_device1 1.28205%, at threshold 0.541794 | + | 20_people_same_device1 1.28205%, at threshold 0.541794 1.28205%, at threshold 0.468932 |
− | 20_people_same_device2 1.25%, at threshold 0.564912 | + | 20_people_same_device2 1.25%, at threshold 0.564912 0%, at threshold 0.561153 |
− | 20_people_same_device3 2.5%, at threshold 0.562019 | + | 20_people_same_device3 2.5%, at threshold 0.562019 1.25%, at threshold 0.565247 |
− | 20_people_same_device4 1.25%, at threshold 0.632257 | + | 20_people_same_device4 1.25%, at threshold 0.632257 1.25%, at threshold 0.67539 |
− | 20_people_diff_device | + | 20_people_diff_device 11.5044%, at threshold 0.412102 15.0442%, at threshold 0.191909 |
</pre> | </pre> | ||
+ | |||
+ | 手机和固定电话,需要分开测试; | ||
+ | ubm256,需要加大; | ||
+ | 组织一下数据,跑D-vector实验; | ||
考勤系统,mic指定; | 考勤系统,mic指定; |
2015年12月30日 (三) 06:37的最后版本
目录
数据
- 第三季度目标
语音数据
- 16K 灵云数据
10000小时实际语料的标注目标,已立项400小时的标注; 语料从1000小时中,通过ASR打分,取出中间的400小时;
- 粤语标注了一个测试集,增量9小时,CER:54%;30h,50%
60h trained. no tag text to lm, CER 45% discard english text;
- 维语
已完成120小时;last train 50h; 16K标注,灵云,180小时,收集验收;
大模型
1)16K10000小时的跑一个DNN训练,加深加宽:7层2400x10000 rectifier 保留英文
数据已处理完,提参数中;DNN 92上跑; pdf:10000 8000中文 2000英文 训练第七轮;cer9.20; 900mdl/3500
拷贝一份,启动8个job; 原来的继续;进行MPE; 生成lattice,还没有开始跑;
MPE的训练:
Context的窗大(-10,+10)的时候不收敛。 小数据过拟合,大数据再看下结果;
2)8K 领域模型,领域通用:设备 7层TDNN2048x10000,含有英文 信道、口音
华为V3信道压缩:4000小时,GMM 分成了100份 识别率下降:下降1-2个点;网络结构增大; MPE今天跑起来一个;用Context有问题的脚本先跑起来;
生成lattice已完成; aliment,MPE中间会输出模型,测试识别率;6台机器; 4天一个Model;
嵌入式
DarkKnowledge训练; 小网络学习大网络,学的会更准,目标函数会更平滑一些; rectifier 4层600*800 DarkKnowledge先不训练。 10000从头训练,nnet3 rectifier 4层600*800 小模型测试,cer20+; bigLM的生成还有问题!
深度的影响更大,宽度相对较小; sigmod,改为rectifier
MPE Contect(6)跑一个;xEnt Contect(-3 -2 -1 0 1 2 3)+MPE; Darkknowledge一个;4*600*800 Nnet3的训练脚本; 5*600*800加深一层跑一个;
生成lattice,训练MPE,转格式专用空间太大,修改脚本,降低存储空间; 变差:从27变为30; 分100分,内部random;
MPE重新训练: global shuffle:重新分组; external lattice,加速,为MPE准备 每天晚上之前跑起来;
解码效率: NNet3的产品化
TagModel
- 加重path或词边:组合词,lm中加重; 晓明、小韩
Path加重,修改fst; 测试加重“xx导演的巩俐演的”; Word Vector:分堆 加词表的15万;
- 识别后处理
已知道这个词错了,可以处理。不知时,还需要处理?
人名识别不好,lm,人名的单字path加重???
勤威项目
- 发布了一个模型:数据62H台湾POI,在6776MPE3上增量;词表量250多万,识别不好;
省市路,分词,句式:tag的方法来做。 晓明 需要测试集,数据中心14日标完。
语音自适应
针对个人的 能提高2~3%(基数CER约10%) 客户端提取ivector,传给服务器;
RNN
LSTM不稳定,和End-to-End Merge,
- End-to-End算法,描述上下文不强,将stat去掉;
100小时验证和预期的差不多,但是大数据和大的LM上,还需要验证。 CTC Kaldi版本,并行的算法完成,在1400h上跑并行。 小汤,目前已超过DNN,MPE:NET3已跑起来。 LSTM
训练数据的并行读取问题?Hadoop?分布式磁盘?特征+lattice
96,实验室;92 8核GPU 16K,215 8K;
粤语16K
声学模型
已训练完成 130H
语言模型
下载语料,训练模型,PPL:1000+ 16K模型:字错误率21.78
粤语8K
69小时的(CER28%) FreeTalk 90小时的(CER27.5%)质检 之前测试集有问题 字面和英文加入,测试集有,训练现在没有; 粤语只训练最后一层;90小时单独训练模型的最后一层加到1400的最后一层; LM差的比较远; 英文单词还没有加(英文的标音:用粤语的音素标); 粤英文的模型,需要训练;
维语8K
声学模型
已训练35小时;借用梦原的模型;用16K的lm Model,WER:30%左右;
语言模型
和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;
发布了一个维语模型,需要识别标注语料,发布的是word模型: model_35h_20150828 CER:0.419693683925
导出64小时,声学和语言模型进行优化。
声纹识别
- 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
- 聚类分类算法 基于Affinity距离的算法研究
- D-Vector
- 短语音的识别:
数字模型:单独训练,ivector和plda需要用数字需要训练。 之前录得语料,独立人只有100人; 16K的找到一个1200人的数据,从中挑选; 8K的采购;但是音量小,是否会有影响?
8个Phone和1个Tele的录音模型已训练完,尚未测试完成;
测试集 iv200_digital_8p1t_vox_8k_new_model iv200_digital_mobile_tele_vox_8k 20_people_same_device1 1.28205%, at threshold 0.541794 1.28205%, at threshold 0.468932 20_people_same_device2 1.25%, at threshold 0.564912 0%, at threshold 0.561153 20_people_same_device3 2.5%, at threshold 0.562019 1.25%, at threshold 0.565247 20_people_same_device4 1.25%, at threshold 0.632257 1.25%, at threshold 0.67539 20_people_diff_device 11.5044%, at threshold 0.412102 15.0442%, at threshold 0.191909
手机和固定电话,需要分开测试; ubm256,需要加大; 组织一下数据,跑D-vector实验;
考勤系统,mic指定; 定制背景模型;
加入情绪,场景的分析,分类的分析;
将测试数据加入训练,看是否有提高?
使用条件的问题:
音量的影响? 背景噪音:如大厅中,人声噪杂的影响?
信道适应? 端点检测 Mic信道 背景噪音
端点检测,信噪比计算; 发音方式:坐着、站着
PLDA adaptation