“Sinovoice-2015-08-18”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
第14行: 第14行:
 
**已训练完:基础模型6776小时的,迭代增量790+580小时的DNN模型;
 
**已训练完:基础模型6776小时的,迭代增量790+580小时的DNN模型;
 
--------------
 
--------------
{
+
{|          | 7月_v2c_6776MPE3 | v2c_1372H_inc_MPE2 | v2c_1372H_inc_MPE2(0.97)
||          ||7月_v2c_6776MPE3||v2c_1372H_inc_MPE2 ||v2c_1372H_inc_MPE2(0.97)||
+
|-
||New_10000  ||0.16112014838    ||0.16241239339      ||0.159341411132||
+
| New_10000  | 0.16112014838    | 0.16241239339      | 0.159341411132 |-
||8000      ||0.0644148011643  ||0.0642472724227    ||0.0623416329864||
+
| 8000      | 0.0644148011643  | 0.0642472724227    | 0.0623416329864 |-
||10000      ||0.0997464074387  ||0.0994082840237    ||0.0952451394759||
+
| 10000      | 0.0997464074387  | 0.0994082840237    | 0.0952451394759 |-
||新词测试集 ||0.0689477746334  ||0.0761512734757    ||0.0771803447389||
+
| 新词测试集 | 0.0689477746334  | 0.0761512734757    | 0.0771803447389  
}
+
|}
 
--------------
 
--------------
 
数据中有#号,丢字多了;句中有#的也丢掉?weak sil scale测试一下。"
 
数据中有#号,丢字多了;句中有#的也丢掉?weak sil scale测试一下。"

2015年8月20日 (四) 08:39的版本

数据

第三季度目标

  • 语音数据
    • 数字串的电话录音
    • 16K 灵云数据 202H 一直在标注中 平衡?按照数据来源:输入法、导航
    • 8K 按照项目走
  • 文本数据
    • 粤语文本,洗出来是400+M;已训练模型,CER:22%

中文16K

第三季度目标 当前WER:93.5% 目标WER:>94.5%

  • DNN
    • 已训练完:基础模型6776小时的,迭代增量790+580小时的DNN模型;

0.16112014838 | 0.16241239339 | 0.159341411132 |- 0.0644148011643 | 0.0642472724227 | 0.0623416329864 |- 0.0997464074387 | 0.0994082840237 | 0.0952451394759 |- 0.0689477746334 | 0.0761512734757 | 0.0771803447389

数据中有#号,丢字多了;句中有#的也丢掉?weak sil scale测试一下。" "现在总共有8500H左右;准备重新跑一个训练过程; 一个single的暂不跑; ensemble的解码变好,训练还没有;"

准备启动:Random训练,现在是4*1200,增加层好,还是增加节点数好?加2层,用新标的数据来训练; 暂时没有时间做。 考虑:只用实际数据。 RNN: "1700+776H LSTM_xent_iter03_910h 27.99 模型训练中 iter05_ 四轮跑完; 三轮中的一个模型,newschedule 小LM1e-5(几M),比6000+H的DNN要好,好1个点; 大LM,没有DNN的好;

MPE的问题:还没有解决" TagModel:实验室解决技术问题 还没有调出一个好的结果,直接在语言模型上fst调权重,可以出来; 1. lm中加重; 2. tag,在lm中有的去掉;选择词替换,test数据到lm中试; 3. 后处理:替换; "video Tag,不能加太多;不是Name的去掉;清理Video; 梦原:有问题的加入Tag,验证是否有效? 晓明:指导数据加工,过滤出有效的数据;

1. 没必要调参数,word vector选词;纠错不行;similary pair;

  宁可:纠错词典,下周1之前会有一个简单能用的版本;

2. 分类:word vector 人名 电视剧名 电影名;

  宁可去掉,不能错放;
  重名?

代码有错:fst加tag时串了;修改后,小实验上效果良好;小米的正在进行merge(nest); 13万词,加进去并不好;Tag还是需要筛查; 如果Tag中的词加入count,是否有效?" 月度语言模型更新: "2015-7月测试,准备上线中:

           4月_model_0.05  6月_model        7月_v2c_model

New_10000 0.162184350153 0.161849886739 0.16112014838 8000 0.0648126819257 0.0649802106674 0.0644148011643 10000 0.100338123415 0.100253592561 0.0997464074387 新词测试集 0.079495755081 0.0720349884229 0.0689477746334" 2015-8月,正在下载语料; 领域语言模型: 领域相关模型,类似于声学的mpe,如何描述这个领域?关键词?Grammar? 小米项目: TagModel,已做一个模型,经常跑入Tag;对人名、地名的加重不好,不稳定,体验不好; 切出小的ngram模型,调整权重;tag先使用句式,再和大的merge; "Tag的权重不好调,统计词的count; 赵涛总结句式,准备用造语料的方法,进行lm的训练; 加重path路径权重; Word加重,已发给,小韩需要测试;

上线了一个针对错误,优化(增加语料,对巩俐、张艺谋) xiaomi_20150813 0.0182 xiaomi_20150814 0.0175

多选:调试已差不多了,速度也不慢了;" 勤威项目: "数据有问题:8K的保存成了16K,16K的格式,读的比较慢,确认一下数据格式;

数据重新转了一遍,就没有问题了; 发布了一个模型:数据62H台湾POI,在6776MPE3上增量"


中文8K 第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%) 并行训练 "并行训练:需要新版本cublas的支持;kaldi不支持,需要支持; 可以在多个GPU上跑了。2个GPU上比1个快1.6倍;" Darkknowledge的三种方法: 未标注:soft 已标注:soft + hard label,diff加权和 实验室是:加权比只有hard会好些。mix训练:未标注+已标注 辽宁移动:DarkKnowledge DarkKnowledge: 辽宁移动: 400h dark knowledge xEnt + MPE, 有标注和无标注的一起训练, Mix训练方法:400h迭代优化,加500小时未标注,晓明已训练完,小韩测试效果变差; 分析:应该没有太大的增长,对100小时以内的数据,比较显著; "有时间再查具体原因; 已基本达标,优先级降低;" Ensemble training :* 13 model ensemble training: 30.81% 解码ensemble decoding,声学部分,对多个模型的声学后验概率合并输出给后面的解码器; 准备训练:分领域,分省; 8K24省的数据,一共500+,每省20小时左右; 列出数据的编码类型;晓明找一下思思给出; 训练方法:DNN的标准训练方法; 数据标注抽检合格率85%; 优先级低,先搁置,等GPU Data selection :* Acoustic-based selection: ubm-decoding done. :* Phonetic-based selection: decoding done. 没有跑。脚本的效率太慢,准备分布式跑,如果还慢,换C++语言重写; 脚本还没有再修改; 滴滴项目: 声学模型训练:270H的增量训练,大概12日能出来; "语言模型训练:标注语料,ppl:69;识别率:84% 引擎修改多选输出:

语言声学都优化:ppL:67 识别率84.6%" 平安项目: DNN_xent:1400H + 700H 18.16 DNN_mpe:1400H + 700H 16.87 "CNN:15.37;梦原给了一个模型,公司这边还没有测试; 引擎模型的打包工具需要修改,还没有修改;" RNN:700H LSTM_new-sched_4400h 17.39 训练中 中英混识 第三季度目标 支持中英混识,对纯中文影响<1%,混识识别率达到纯中文的95%; 8K RNN 1400+100H DNN_xent 中文:20.83 英文:57.50 DNN_xent_ft4200h-hl3 中文:19.52 英文:57.20 "基本已收敛:17.17% 英文 48.46% " LSTM_xent_iter08_1270h 中文:17.49 英文:48.06 8K RNN 1400+300H DNN_xent_ft4200h-hl3 中文:20.56 英文:39.75 "LSTM_xent_iter04_1340h 中文:18.93 英文:40.08 训练中 已跑6轮:中文:17.30 英文:38.16" 中文16K远场 第三季度目标 2米有效角度内,WER:>88% 山东共达 "山东共达:基于Android的一个处理算法,将数据处理一遍,进行模型训练;由于效率比较低,鲁磊正在供应商联系,提供Windows或Linux版本的; 是否需要完全模拟远场,进行声音采集或处理?

近场变远场:算法有,需要调试; 远场变近场:共达提供算法; 近场数据处理:共达提供算法;" 讯的方案:远场处理方案;Mic芯片; 粤语16K 第三季度目标 目前不支持,目标:支持,WER:>80% 声学模型 已训练完成 130H 语言模型 "已拿到数据,开始训练;繁体转简体。 数据质量差? 网页下载繁体;确认是否是粤语字?

PPL:1000+" 粤语8K 目标 WER:>65% 声学模型 "需要标注语料,正在招标注员、验收员 考题,进行招聘;" 语言模型 "语言模型训练完了,测试结果: 16K模型:字错误率21.78 8k模型:字错误率22.0 测试集采用的是海天润声给的样本数据,从16k转8k。" 维语16K WER:85%

维语8K 第三季度目标 目前不支持,目标:支持,WER:>65% 声学模型 已训练35小时;借用梦原的模型;用16K的lm Model,30%左右; 语言模型 "和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;" 情感识别 第三季度目标 目前:识别生气,正确率<30%;目标破:识别生气:16K >65%; 8K >60%; OpenEar产品化 待引擎产品化; 8K模型训练 开发完引擎,选取语料,进行标注; 话者分离 第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行 DNN端点检测 "之前训练的4*300*2的端点检测模型,实时率得到提升,占整个RT的4%左右,但是正确率相对于大模型下降,大模型82%,小模型70%; 正在训练新的端点检测模型:4*400+500;MPE的前处理,预计:2天左右能出MPE1;

引擎版本 字错误率 R925 cer:0.229239308333; r946 cer:0.253077634669;

引擎版本 话者分离总时长 正确率 R925 all total:3429752.000000 correct:0.824830 r946 all total:3409079.000000 correct:0.773867" 声纹识别: 第三季度目标 数字串串长6的EER<1%;支持百万级的实时辨识; 数字串模型训练 正在采集数字串语音数据,预期本月内完成; TZNorm算法 TZNorm算法,与预期不符,检查算法的正确性; 聚类分类算法 基于Affinity距离的算法研究 D-Vector