“Sinovoice-2015-08-18”版本间的差异

2015年8月20日 (四) 08:39的版本

数据

第三季度目标

语音数据
- 数字串的电话录音
- 16K 灵云数据 202H 一直在标注中平衡？按照数据来源：输入法、导航
- 8K 按照项目走

文本数据
- 粤语文本，洗出来是400+M;已训练模型，CER:22%

中文16K

第三季度目标当前WER:93.5% 目标WER:>94.5%

DNN
- 已训练完：基础模型6776小时的，迭代增量790+580小时的DNN模型；

0.16112014838 | 0.16241239339 | 0.159341411132 |-

0.0644148011643 | 0.0642472724227 | 0.0623416329864 |-

0.0997464074387 | 0.0994082840237 | 0.0952451394759 |-

0.0689477746334 | 0.0761512734757 | 0.0771803447389

数据中有#号，丢字多了；句中有#的也丢掉？weak sil scale测试一下。" "现在总共有8500H左右；准备重新跑一个训练过程；一个single的暂不跑； ensemble的解码变好，训练还没有；"

准备启动：Random训练，现在是4*1200，增加层好，还是增加节点数好？加2层，用新标的数据来训练；暂时没有时间做。考虑：只用实际数据。 RNN： "1700+776H LSTM_xent_iter03_910h 27.99 模型训练中 iter05_ 四轮跑完；三轮中的一个模型，newschedule 小LM1e-5(几M)，比6000+H的DNN要好，好1个点；大LM，没有DNN的好；

MPE的问题：还没有解决" TagModel：实验室解决技术问题还没有调出一个好的结果，直接在语言模型上fst调权重，可以出来； 1. lm中加重； 2. tag，在lm中有的去掉；选择词替换，test数据到lm中试； 3. 后处理：替换； "video Tag，不能加太多；不是Name的去掉；清理Video；梦原:有问题的加入Tag，验证是否有效？晓明:指导数据加工，过滤出有效的数据；

1. 没必要调参数，word vector选词；纠错不行；similary pair；

  宁可：纠错词典，下周1之前会有一个简单能用的版本；

2. 分类：word vector 人名电视剧名电影名；

  宁可去掉，不能错放；
  重名？

代码有错：fst加tag时串了；修改后，小实验上效果良好；小米的正在进行merge（nest)； 13万词，加进去并不好；Tag还是需要筛查；如果Tag中的词加入count，是否有效？" 月度语言模型更新： "2015-7月测试，准备上线中：

           4月_model_0.05  6月_model        7月_v2c_model

New_10000 0.162184350153 0.161849886739 0.16112014838 8000 0.0648126819257 0.0649802106674 0.0644148011643 10000 0.100338123415 0.100253592561 0.0997464074387 新词测试集 0.079495755081 0.0720349884229 0.0689477746334" 2015-8月,正在下载语料；领域语言模型：领域相关模型，类似于声学的mpe，如何描述这个领域？关键词？Grammar？小米项目： TagModel，已做一个模型，经常跑入Tag；对人名、地名的加重不好，不稳定，体验不好；切出小的ngram模型，调整权重；tag先使用句式，再和大的merge； "Tag的权重不好调，统计词的count; 赵涛总结句式，准备用造语料的方法，进行lm的训练；加重path路径权重； Word加重，已发给，小韩需要测试；

上线了一个针对错误，优化（增加语料，对巩俐、张艺谋） xiaomi_20150813 0.0182 xiaomi_20150814 0.0175

多选：调试已差不多了，速度也不慢了；" 勤威项目： "数据有问题：8K的保存成了16K，16K的格式，读的比较慢，确认一下数据格式；

数据重新转了一遍，就没有问题了；发布了一个模型：数据62H台湾POI，在6776MPE3上增量"

中文8K 第三季度目标当前WER:75%；目标WER:>78% (相对下降10%) 并行训练 "并行训练：需要新版本cublas的支持；kaldi不支持，需要支持；可以在多个GPU上跑了。2个GPU上比1个快1.6倍；" Darkknowledge的三种方法：未标注：soft 已标注：soft + hard label，diff加权和实验室是：加权比只有hard会好些。mix训练：未标注+已标注辽宁移动：DarkKnowledge DarkKnowledge：辽宁移动: 400h dark knowledge xEnt + MPE，有标注和无标注的一起训练， Mix训练方法：400h迭代优化，加500小时未标注，晓明已训练完，小韩测试效果变差；分析：应该没有太大的增长，对100小时以内的数据，比较显著； "有时间再查具体原因；已基本达标，优先级降低；" Ensemble training :* 13 model ensemble training: 30.81% 解码ensemble decoding，声学部分，对多个模型的声学后验概率合并输出给后面的解码器；准备训练：分领域，分省； 8K24省的数据，一共500+,每省20小时左右；列出数据的编码类型；晓明找一下思思给出；训练方法：DNN的标准训练方法；数据标注抽检合格率85%；优先级低，先搁置，等GPU Data selection :* Acoustic-based selection: ubm-decoding done. :* Phonetic-based selection: decoding done. 没有跑。脚本的效率太慢，准备分布式跑，如果还慢，换C++语言重写；脚本还没有再修改；滴滴项目：声学模型训练：270H的增量训练，大概12日能出来； "语言模型训练：标注语料，ppl：69；识别率：84% 引擎修改多选输出：

语言声学都优化：ppL：67 识别率84.6%" 平安项目： DNN_xent：1400H + 700H 18.16 DNN_mpe：1400H + 700H 16.87 "CNN：15.37；梦原给了一个模型，公司这边还没有测试；引擎模型的打包工具需要修改，还没有修改；" RNN：700H LSTM_new-sched_4400h 17.39 训练中中英混识第三季度目标支持中英混识，对纯中文影响<1%，混识识别率达到纯中文的95%； 8K RNN 1400+100H DNN_xent 中文：20.83 英文：57.50 DNN_xent_ft4200h-hl3 中文：19.52 英文：57.20 "基本已收敛：17.17% 英文 48.46% " LSTM_xent_iter08_1270h 中文：17.49 英文：48.06 8K RNN 1400+300H DNN_xent_ft4200h-hl3 中文：20.56 英文：39.75 "LSTM_xent_iter04_1340h 中文：18.93 英文：40.08 训练中已跑6轮：中文：17.30 英文：38.16" 中文16K远场第三季度目标 2米有效角度内，WER:>88% 山东共达 "山东共达：基于Android的一个处理算法，将数据处理一遍，进行模型训练；由于效率比较低，鲁磊正在供应商联系，提供Windows或Linux版本的；是否需要完全模拟远场，进行声音采集或处理？

近场变远场：算法有，需要调试；远场变近场：共达提供算法；近场数据处理：共达提供算法；" 讯的方案：远场处理方案；Mic芯片；粤语16K 第三季度目标目前不支持，目标：支持，WER:>80% 声学模型已训练完成 130H 语言模型 "已拿到数据，开始训练；繁体转简体。数据质量差？网页下载繁体；确认是否是粤语字？

PPL：1000+" 粤语8K 目标 WER:>65% 声学模型 "需要标注语料，正在招标注员、验收员考题，进行招聘；" 语言模型 "语言模型训练完了，测试结果： 16K模型：字错误率21.78 8k模型：字错误率22.0 测试集采用的是海天润声给的样本数据，从16k转8k。" 维语16K WER:85%

维语8K 第三季度目标目前不支持，目标：支持，WER:>65% 声学模型已训练35小时；借用梦原的模型；用16K的lm Model，30%左右；语言模型 "和新疆大学调试：公司Word；实验室 35H标注文本数据已提供实验室处理； toolkit做完了，维语句子转成monphone串；" 情感识别第三季度目标目前：识别生气，正确率<30%；目标破：识别生气：16K >65%; 8K >60%; OpenEar产品化待引擎产品化； 8K模型训练开发完引擎，选取语料，进行标注；话者分离第三季度目标目前：正确率82%；目标：暂无计划，结合项目进行 DNN端点检测 "之前训练的4*300*2的端点检测模型，实时率得到提升，占整个RT的4%左右，但是正确率相对于大模型下降，大模型82%，小模型70%；正在训练新的端点检测模型：4*400+500；MPE的前处理，预计：2天左右能出MPE1；

引擎版本字错误率 R925 cer:0.229239308333; r946 cer:0.253077634669;

引擎版本话者分离总时长正确率 R925 all total:3429752.000000 correct:0.824830 r946 all total:3409079.000000 correct:0.773867" 声纹识别：第三季度目标数字串串长6的EER<1%;支持百万级的实时辨识；数字串模型训练正在采集数字串语音数据，预期本月内完成； TZNorm算法 TZNorm算法，与预期不符，检查算法的正确性；聚类分类算法基于Affinity距离的算法研究 D-Vector

@@ 第14行： / 第14行： @@
 **已训练完：基础模型6776小时的，迭代增量790+580小时的DNN模型；
 --------------
-{
+{|           | 7月_v2c_6776MPE3 | v2c_1372H_inc_MPE2 | v2c_1372H_inc_MPE2(0.97)
-||           ||7月_v2c_6776MPE3||v2c_1372H_inc_MPE2 ||v2c_1372H_inc_MPE2(0.97)||
+|-
-||New_10000  ||0.16112014838    ||0.16241239339      ||0.159341411132||
+| New_10000  | 0.16112014838    | 0.16241239339      | 0.159341411132  |-
-||8000       ||0.0644148011643  ||0.0642472724227    ||0.0623416329864||
+| 8000       | 0.0644148011643  | 0.0642472724227    | 0.0623416329864 |-
-||10000      ||0.0997464074387  ||0.0994082840237    ||0.0952451394759||
+| 10000      | 0.0997464074387  | 0.0994082840237    | 0.0952451394759 |-
-||新词测试集  ||0.0689477746334  ||0.0761512734757    ||0.0771803447389||
+| 新词测试集 | 0.0689477746334  | 0.0761512734757    | 0.0771803447389
-}
+|}
 --------------
 数据中有#号，丢字多了；句中有#的也丢掉？weak sil scale测试一下。"

“Sinovoice-2015-08-18”版本间的差异

2015年8月20日 (四) 08:39的版本

数据

中文16K

导航菜单

个人工具

名字空间

变种

查看

操作

搜索

导航

工具