“Sinovoice-2015-08-18”版本间的差异
(→9 话者分离) |
|||
(相同用户的21个中间修订版本未显示) | |||
第1行: | 第1行: | ||
− | + | ==数据== | |
− | + | *第三季度目标 | |
− | + | ===语音数据=== | |
− | + | *数字串 | |
+ | 电话录音 | ||
+ | *16K 灵云数据 | ||
+ | 202H 一直在标注中 平衡?按照数据来源:输入法、导航 | ||
+ | *8K | ||
+ | 按照项目走 | ||
+ | ===文本数据=== | ||
+ | *粤语文本 | ||
+ | 洗出来是400+M;已训练模型,CER:22% | ||
− | + | ==2 中文16K== | |
− | + | *第三季度目标 当前WER:93.5% 目标WER:>94.5% | |
− | + | ===DNN=== | |
− | + | *已训练完:基础模型6776小时的,迭代增量790+580小时的DNN模型; | |
− | + | -------------- | |
− | New_10000 | + | {| class="wikitable" border="1" |
− | 8000 | + | | ||7月_v2c_6776MPE3 || v2c_1372H_inc_MPE2 || v2c_1372H_inc_MPE2(0.97) |
− | 10000 | + | |- |
− | 新词测试集 | + | | New_10000 || 0.16112014838 || 0.16241239339 || 0.159341411132 |
− | 数据中有#号,丢字多了;句中有#的也丢掉?weak sil scale测试一下。 | + | |- |
− | + | | 8000 || 0.0644148011643 || 0.0642472724227 || 0.0623416329864 | |
+ | |- | ||
+ | | 10000 || 0.0997464074387 || 0.0994082840237 || 0.0952451394759 | ||
+ | |- | ||
+ | | 新词测试集 || 0.0689477746334 || 0.0761512734757 || 0.0771803447389 | ||
+ | |} | ||
+ | -------------- | ||
+ | 数据中有#号,丢字多了;句中有#的也丢掉?weak sil scale测试一下。 | ||
+ | |||
+ | *现在总共有8500H左右;准备重新跑一个训练过程; | ||
一个single的暂不跑; | 一个single的暂不跑; | ||
− | ensemble的解码变好,训练还没有; | + | ensemble的解码变好,训练还没有; |
− | + | *准备启动:Random训练,现在是4*1200,增加层好,还是增加节点数好?加2层,用新标的数据来训练; | |
暂时没有时间做。 | 暂时没有时间做。 | ||
考虑:只用实际数据。 | 考虑:只用实际数据。 | ||
− | + | ||
+ | ===RNN=== | ||
+ | *1700+776H LSTM_xent_iter03_910h 27.99 模型训练中 | ||
iter05_ | iter05_ | ||
四轮跑完; | 四轮跑完; | ||
− | 三轮中的一个模型,newschedule | + | |
+ | *三轮中的一个模型,newschedule | ||
小LM1e-5(几M),比6000+H的DNN要好,好1个点; | 小LM1e-5(几M),比6000+H的DNN要好,好1个点; | ||
大LM,没有DNN的好; | 大LM,没有DNN的好; | ||
+ | *MPE的问题:还没有解决 | ||
− | + | ===TagModel=== | |
− | + | *实验室解决技术问题,还没有调出一个好的结果,直接在语言模型上fst调权重,可以出来; | |
− | + | # lm中加重; | |
− | + | # tag,在lm中有的去掉;选择词替换,test数据到lm中试; | |
− | + | # 后处理:替换; | |
− | + | ||
− | + | ||
− | + | ||
+ | *video Tag,不能加太多;不是Name的去掉;清理Video; | ||
+ | *梦原:有问题的加入Tag,验证是否有效? | ||
+ | *晓明:指导数据加工,过滤出有效的数据; | ||
+ | <pre> | ||
1. 没必要调参数,word vector选词;纠错不行;similary pair; | 1. 没必要调参数,word vector选词;纠错不行;similary pair; | ||
宁可:纠错词典,下周1之前会有一个简单能用的版本; | 宁可:纠错词典,下周1之前会有一个简单能用的版本; | ||
第42行: | 第64行: | ||
宁可去掉,不能错放; | 宁可去掉,不能错放; | ||
重名? | 重名? | ||
+ | </pre> | ||
− | 代码有错:fst加tag时串了;修改后,小实验上效果良好;小米的正在进行merge(nest); | + | *代码有错:fst加tag时串了;修改后,小实验上效果良好;小米的正在进行merge(nest); |
− | 13万词,加进去并不好;Tag还是需要筛查; | + | *13万词,加进去并不好;Tag还是需要筛查; |
− | 如果Tag中的词加入count,是否有效? | + | *如果Tag中的词加入count,是否有效? |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | 上线了一个针对错误,优化(增加语料,对巩俐、张艺谋) | + | ===月度语言模型更新=== |
+ | *2015-7月测试,已上线: | ||
+ | {| class="wikitable" border="1" | ||
+ | | || 4月_model_0.05 || 6月_model || 7月_v2c_model | ||
+ | |- | ||
+ | |New_10000 || 0.162184350153 || 0.161849886739 || 0.16112014838 | ||
+ | |- | ||
+ | |8000 || 0.0648126819257 || 0.0649802106674 || 0.0644148011643 | ||
+ | |- | ||
+ | |10000 || 0.100338123415 || 0.100253592561 || 0.0997464074387 | ||
+ | |- | ||
+ | |新词测试集 || 0.079495755081 || 0.0720349884229 || 0.0689477746334" | ||
+ | |} | ||
+ | *2015-8月,正在下载语料; | ||
+ | |||
+ | ===领域语言模型=== | ||
+ | 领域相关模型,类似于声学的mpe,如何描述这个领域?关键词?Grammar? | ||
+ | |||
+ | ===小米项目=== | ||
+ | *TagModel: | ||
+ | 已做一个模型,经常跑入Tag;对人名、地名的加重不好,不稳定,体验不好; | ||
+ | 切出小的ngram模型,调整权重;tag先使用句式,再和大的merge; | ||
+ | Tag的权重不好调,统计词的count; | ||
+ | |||
+ | *赵涛总结句式,准备用造语料的方法,进行lm的训练; | ||
+ | *加重path路径权重; | ||
+ | *Word加重,已发给,小韩需要测试; | ||
+ | |||
+ | *上线了一个针对错误,优化(增加语料,对巩俐、张艺谋) | ||
+ | <pre> | ||
xiaomi_20150813 0.0182 | xiaomi_20150813 0.0182 | ||
xiaomi_20150814 0.0175 | xiaomi_20150814 0.0175 | ||
+ | </pre> | ||
− | + | *多选 | |
− | + | 调试已差不多了,速度也不慢了;" | |
− | + | ===勤威项目=== | |
− | 发布了一个模型:数据62H台湾POI,在6776MPE3上增量" | + | *之前有8K和16K混存的问题,数据重新转了一遍,就没有问题了; |
+ | *发布了一个模型:数据62H台湾POI,在6776MPE3上增量" | ||
− | + | ==中文8K== | |
− | + | *第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%) | |
− | 中文8K | + | ===并行训练=== |
− | + | 并行训练:需要新版本cublas的支持;kaldi不支持,需要支持; | |
可以在多个GPU上跑了。2个GPU上比1个快1.6倍;" | 可以在多个GPU上跑了。2个GPU上比1个快1.6倍;" | ||
− | + | ||
− | + | ===Darkknowledge=== | |
− | + | *三种方法 | |
− | + | <pre> | |
− | + | 未标注:soft | |
− | + | 已标注:soft + hard label,diff加权和 实验室是:加权比只有hard会好些。 | |
− | + | mix训练:未标注+已标注 | |
− | + | </pre> | |
− | + | ||
− | + | *辽宁移动: | |
− | + | <pre> | |
− | + | 400h dark knowledge xEnt + MPE, 有标注和无标注的一起训练, | |
− | + | Mix训练方法:400h迭代优化,加500小时未标注,晓明已训练完,小韩测试效果变差; | |
− | + | 分析:应该没有太大的增长,对100小时以内的数据,比较显著; | |
− | + | 有时间再查具体原因;已基本达标,优先级降低; | |
− | + | </pre> | |
− | + | ||
− | + | *Ensemble training | |
− | + | <pre> | |
− | + | 13 model ensemble training: 30.81% | |
− | + | 解码ensemble decoding,声学部分,对多个模型的声学后验概率合并输出给后面的解码器; | |
− | + | 准备训练:分领域,分省; | |
+ | 8K24省的数据,一共500+,每省20小时左右; | ||
+ | 列出数据的编码类型;晓明找一下思思给出; | ||
+ | 训练方法:DNN的标准训练方法; | ||
+ | 数据标注抽检合格率85%; | ||
+ | 优先级低,先搁置,等GPU | ||
+ | </pre> | ||
+ | |||
+ | *Data selection | ||
+ | Acoustic-based selection: ubm-decoding done. | ||
+ | Phonetic-based selection: decoding done. | ||
+ | 没有跑。脚本的效率太慢,准备分布式跑,如果还慢,换C++语言重写; | ||
+ | 脚本还没有再修改; | ||
+ | |||
+ | ===滴滴项目=== | ||
+ | 声学模型训练:270H的增量训练,大概12日能出来; | ||
+ | 语言模型训练:标注语料,ppl:69;识别率:84% | ||
引擎修改多选输出: | 引擎修改多选输出: | ||
+ | 语言声学都优化:ppl:67 识别率84.6% | ||
− | + | ===平安项目=== | |
− | + | DNN_xent:1400H + 700H 18.16 | |
− | + | DNN_mpe:1400H + 700H 16.87 | |
− | + | CNN:15.37;梦原给了一个模型,公司这边还没有测试; | |
引擎模型的打包工具需要修改,还没有修改;" | 引擎模型的打包工具需要修改,还没有修改;" | ||
− | + | ||
− | 中英混识 第三季度目标 支持中英混识,对纯中文影响<1%,混识识别率达到纯中文的95%; | + | ===RNN=== |
− | + | 700H LSTM_new-sched_4400h 17.39 训练中 | |
− | + | ||
− | + | ==3 中英混识== | |
− | + | *第三季度目标 支持中英混识,对纯中文影响<1%,混识识别率达到纯中文的95%; | |
− | + | ===8K=== | |
− | + | *RNN 1400+100H | |
− | + | DNN_xent 中文:20.83 英文:57.50 | |
+ | DNN_xent_ft4200h-hl3 中文:19.52 英文:57.20 | ||
+ | 基本已收敛:17.17% 英文 48.46% | ||
+ | |||
+ | LSTM_xent_iter08_1270h 中文:17.49 英文:48.06 | ||
+ | |||
+ | *RNN 1400+300H | ||
+ | DNN_xent_ft4200h-hl3 中文:20.56 英文:39.75 | ||
+ | LSTM_xent_iter04_1340h 中文:18.93 英文:40.08 训练中 | ||
已跑6轮:中文:17.30 英文:38.16" | 已跑6轮:中文:17.30 英文:38.16" | ||
− | 中文16K远场 第三季度目标 2米有效角度内,WER:>88% | + | |
− | + | ==4 中文16K远场== | |
+ | *第三季度目标 2米有效角度内,WER:>88% | ||
+ | ===山东共达=== | ||
+ | 山东共达:基于Android的一个处理算法,将数据处理一遍,进行模型训练;由于效率比较低,鲁磊正在供应商联系,提供Windows或Linux版本的; | ||
是否需要完全模拟远场,进行声音采集或处理? | 是否需要完全模拟远场,进行声音采集或处理? | ||
近场变远场:算法有,需要调试; | 近场变远场:算法有,需要调试; | ||
远场变近场:共达提供算法; | 远场变近场:共达提供算法; | ||
− | 近场数据处理:共达提供算法; | + | 近场数据处理:共达提供算法; |
− | + | ||
− | 粤语16K | + | ===科声讯的方案=== |
− | + | 远场处理方案;Mic芯片; | |
− | + | ||
+ | ==粤语16K== | ||
+ | *第三季度目标 目前不支持,目标:支持,WER:>80% | ||
+ | ===声学模型=== | ||
+ | 已训练完成 130H | ||
+ | ===语言模型=== | ||
+ | 已拿到数据,开始训练;繁体转简体。 | ||
数据质量差? | 数据质量差? | ||
网页下载繁体;确认是否是粤语字? | 网页下载繁体;确认是否是粤语字? | ||
− | |||
PPL:1000+" | PPL:1000+" | ||
− | 粤语8K | + | |
− | + | ==粤语8K== | |
− | + | *目标 WER:>65% | |
− | + | ===声学模型=== | |
+ | *需要标注语料,正在招标注员、验收员,进行招聘;" | ||
+ | *语言模型 "语言模型训练完了,测试结果: | ||
16K模型:字错误率21.78 | 16K模型:字错误率21.78 | ||
8k模型:字错误率22.0 | 8k模型:字错误率22.0 | ||
第139行: | 第214行: | ||
维语16K WER:85% | 维语16K WER:85% | ||
− | 维语8K | + | ==维语8K== |
− | + | *第三季度目标 目前不支持,目标:支持,WER:>65% | |
− | + | ===声学模型=== | |
+ | 已训练35小时;借用梦原的模型;用16K的lm Model,30%左右; | ||
+ | ===语言模型=== | ||
+ | 和新疆大学调试:公司Word;实验室 | ||
35H标注文本数据已提供实验室处理; | 35H标注文本数据已提供实验室处理; | ||
toolkit做完了,维语句子转成monphone串;" | toolkit做完了,维语句子转成monphone串;" | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
+ | ==8 情感识别== | ||
+ | *第三季度目标 目前:识别生气,正确率<30%;目标破:识别生气:16K >65%; 8K >60%; | ||
+ | |||
+ | ===OpenEar产品化=== | ||
+ | 待引擎产品化; | ||
+ | |||
+ | ===8K模型训练=== | ||
+ | 开发完引擎,选取语料,进行标注; | ||
+ | |||
+ | ==9 话者分离== | ||
+ | *第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行 | ||
+ | ===DNN端点检测=== | ||
+ | *之前训练的4*300*2的端点检测模型,实时率得到提升,占整个RT的4%左右,但是正确率相对于大模型下降,大模型82%,小模型70%; | ||
+ | *正在训练新的端点检测模型:4*400+500;MPE的前处理,预计:2天左右能出MPE1; | ||
+ | <pre> | ||
引擎版本 字错误率 | 引擎版本 字错误率 | ||
R925 cer:0.229239308333; | R925 cer:0.229239308333; | ||
第158行: | 第245行: | ||
R925 all total:3429752.000000 correct:0.824830 | R925 all total:3429752.000000 correct:0.824830 | ||
r946 all total:3409079.000000 correct:0.773867" | r946 all total:3409079.000000 correct:0.773867" | ||
− | + | </pre> | |
− | + | ||
− | + | ==声纹识别== | |
− | + | *第三季度目标 数字串串长6的EER<1%;支持百万级的实时辨识; | |
− | + | *数字串模型训练 正在采集数字串语音数据,预期本月内完成; | |
+ | *TZNorm算法 TZNorm算法,与预期不符,检查算法的正确性; | ||
+ | *聚类分类算法 基于Affinity距离的算法研究 | ||
+ | *D-Vector |
2015年8月24日 (一) 10:51的最后版本
数据
- 第三季度目标
语音数据
- 数字串
电话录音
- 16K 灵云数据
202H 一直在标注中 平衡?按照数据来源:输入法、导航
- 8K
按照项目走
文本数据
- 粤语文本
洗出来是400+M;已训练模型,CER:22%
2 中文16K
- 第三季度目标 当前WER:93.5% 目标WER:>94.5%
DNN
- 已训练完:基础模型6776小时的,迭代增量790+580小时的DNN模型;
7月_v2c_6776MPE3 | v2c_1372H_inc_MPE2 | v2c_1372H_inc_MPE2(0.97) | |
New_10000 | 0.16112014838 | 0.16241239339 | 0.159341411132 |
8000 | 0.0644148011643 | 0.0642472724227 | 0.0623416329864 |
10000 | 0.0997464074387 | 0.0994082840237 | 0.0952451394759 |
新词测试集 | 0.0689477746334 | 0.0761512734757 | 0.0771803447389 |
数据中有#号,丢字多了;句中有#的也丢掉?weak sil scale测试一下。
- 现在总共有8500H左右;准备重新跑一个训练过程;
一个single的暂不跑; ensemble的解码变好,训练还没有;
- 准备启动:Random训练,现在是4*1200,增加层好,还是增加节点数好?加2层,用新标的数据来训练;
暂时没有时间做。 考虑:只用实际数据。
RNN
- 1700+776H LSTM_xent_iter03_910h 27.99 模型训练中
iter05_ 四轮跑完;
- 三轮中的一个模型,newschedule
小LM1e-5(几M),比6000+H的DNN要好,好1个点; 大LM,没有DNN的好;
- MPE的问题:还没有解决
TagModel
- 实验室解决技术问题,还没有调出一个好的结果,直接在语言模型上fst调权重,可以出来;
- lm中加重;
- tag,在lm中有的去掉;选择词替换,test数据到lm中试;
- 后处理:替换;
- video Tag,不能加太多;不是Name的去掉;清理Video;
- 梦原:有问题的加入Tag,验证是否有效?
- 晓明:指导数据加工,过滤出有效的数据;
1. 没必要调参数,word vector选词;纠错不行;similary pair; 宁可:纠错词典,下周1之前会有一个简单能用的版本; 2. 分类:word vector 人名 电视剧名 电影名; 宁可去掉,不能错放; 重名?
- 代码有错:fst加tag时串了;修改后,小实验上效果良好;小米的正在进行merge(nest);
- 13万词,加进去并不好;Tag还是需要筛查;
- 如果Tag中的词加入count,是否有效?
月度语言模型更新
- 2015-7月测试,已上线:
4月_model_0.05 | 6月_model | 7月_v2c_model | |
New_10000 | 0.162184350153 | 0.161849886739 | 0.16112014838 |
8000 | 0.0648126819257 | 0.0649802106674 | 0.0644148011643 |
10000 | 0.100338123415 | 0.100253592561 | 0.0997464074387 |
新词测试集 | 0.079495755081 | 0.0720349884229 | 0.0689477746334" |
- 2015-8月,正在下载语料;
领域语言模型
领域相关模型,类似于声学的mpe,如何描述这个领域?关键词?Grammar?
小米项目
- TagModel:
已做一个模型,经常跑入Tag;对人名、地名的加重不好,不稳定,体验不好; 切出小的ngram模型,调整权重;tag先使用句式,再和大的merge; Tag的权重不好调,统计词的count;
- 赵涛总结句式,准备用造语料的方法,进行lm的训练;
- 加重path路径权重;
- Word加重,已发给,小韩需要测试;
- 上线了一个针对错误,优化(增加语料,对巩俐、张艺谋)
xiaomi_20150813 0.0182 xiaomi_20150814 0.0175
- 多选
调试已差不多了,速度也不慢了;"
勤威项目
- 之前有8K和16K混存的问题,数据重新转了一遍,就没有问题了;
- 发布了一个模型:数据62H台湾POI,在6776MPE3上增量"
中文8K
- 第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%)
并行训练
并行训练:需要新版本cublas的支持;kaldi不支持,需要支持; 可以在多个GPU上跑了。2个GPU上比1个快1.6倍;"
Darkknowledge
- 三种方法
未标注:soft 已标注:soft + hard label,diff加权和 实验室是:加权比只有hard会好些。 mix训练:未标注+已标注
- 辽宁移动:
400h dark knowledge xEnt + MPE, 有标注和无标注的一起训练, Mix训练方法:400h迭代优化,加500小时未标注,晓明已训练完,小韩测试效果变差; 分析:应该没有太大的增长,对100小时以内的数据,比较显著; 有时间再查具体原因;已基本达标,优先级降低;
- Ensemble training
13 model ensemble training: 30.81% 解码ensemble decoding,声学部分,对多个模型的声学后验概率合并输出给后面的解码器; 准备训练:分领域,分省; 8K24省的数据,一共500+,每省20小时左右; 列出数据的编码类型;晓明找一下思思给出; 训练方法:DNN的标准训练方法; 数据标注抽检合格率85%; 优先级低,先搁置,等GPU
- Data selection
Acoustic-based selection: ubm-decoding done. Phonetic-based selection: decoding done. 没有跑。脚本的效率太慢,准备分布式跑,如果还慢,换C++语言重写; 脚本还没有再修改;
滴滴项目
声学模型训练:270H的增量训练,大概12日能出来; 语言模型训练:标注语料,ppl:69;识别率:84% 引擎修改多选输出: 语言声学都优化:ppl:67 识别率84.6%
平安项目
DNN_xent:1400H + 700H 18.16 DNN_mpe:1400H + 700H 16.87 CNN:15.37;梦原给了一个模型,公司这边还没有测试; 引擎模型的打包工具需要修改,还没有修改;"
RNN
700H LSTM_new-sched_4400h 17.39 训练中
3 中英混识
- 第三季度目标 支持中英混识,对纯中文影响<1%,混识识别率达到纯中文的95%;
8K
- RNN 1400+100H
DNN_xent 中文:20.83 英文:57.50 DNN_xent_ft4200h-hl3 中文:19.52 英文:57.20 基本已收敛:17.17% 英文 48.46%
LSTM_xent_iter08_1270h 中文:17.49 英文:48.06
- RNN 1400+300H
DNN_xent_ft4200h-hl3 中文:20.56 英文:39.75 LSTM_xent_iter04_1340h 中文:18.93 英文:40.08 训练中 已跑6轮:中文:17.30 英文:38.16"
4 中文16K远场
- 第三季度目标 2米有效角度内,WER:>88%
山东共达
山东共达:基于Android的一个处理算法,将数据处理一遍,进行模型训练;由于效率比较低,鲁磊正在供应商联系,提供Windows或Linux版本的; 是否需要完全模拟远场,进行声音采集或处理?
近场变远场:算法有,需要调试; 远场变近场:共达提供算法; 近场数据处理:共达提供算法;
科声讯的方案
远场处理方案;Mic芯片;
粤语16K
- 第三季度目标 目前不支持,目标:支持,WER:>80%
声学模型
已训练完成 130H
语言模型
已拿到数据,开始训练;繁体转简体。 数据质量差? 网页下载繁体;确认是否是粤语字? PPL:1000+"
粤语8K
- 目标 WER:>65%
声学模型
- 需要标注语料,正在招标注员、验收员,进行招聘;"
- 语言模型 "语言模型训练完了,测试结果:
16K模型:字错误率21.78 8k模型:字错误率22.0 测试集采用的是海天润声给的样本数据,从16k转8k。" 维语16K WER:85%
维语8K
- 第三季度目标 目前不支持,目标:支持,WER:>65%
声学模型
已训练35小时;借用梦原的模型;用16K的lm Model,30%左右;
语言模型
和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;"
8 情感识别
- 第三季度目标 目前:识别生气,正确率<30%;目标破:识别生气:16K >65%; 8K >60%;
OpenEar产品化
待引擎产品化;
8K模型训练
开发完引擎,选取语料,进行标注;
9 话者分离
- 第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行
DNN端点检测
- 之前训练的4*300*2的端点检测模型,实时率得到提升,占整个RT的4%左右,但是正确率相对于大模型下降,大模型82%,小模型70%;
- 正在训练新的端点检测模型:4*400+500;MPE的前处理,预计:2天左右能出MPE1;
引擎版本 字错误率 R925 cer:0.229239308333; r946 cer:0.253077634669; 引擎版本 话者分离总时长 正确率 R925 all total:3429752.000000 correct:0.824830 r946 all total:3409079.000000 correct:0.773867"
声纹识别
- 第三季度目标 数字串串长6的EER<1%;支持百万级的实时辨识;
- 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
- TZNorm算法 TZNorm算法,与预期不符,检查算法的正确性;
- 聚类分类算法 基于Affinity距离的算法研究
- D-Vector