“Sinovoice-2015-12-09”版本间的差异

2015年12月9日 (三) 06:00的版本

数据

第三季度目标

语音数据

16K 灵云数据

10000小时实际语料的标注目标，已立项400小时的标注；语料从1000小时中，通过ASR打分，取出中间的400小时；

粤语标注了一个测试集，增量9小时，CER：54%；30h,50%

60h trained. no tag text to lm, CER 45% discard english text; 已完成80小时。

维语

已完成120小时；last train 50h;

大模型

1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文

  数据已处理完，提参数中；DNN 92上跑；
  pdf：10000 8000中文 2000英文
  训练第六轮；cer9.41；

MPE的训练:

  大体没有问题，验证一些小问题，预期下周一发过来？

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音

  华为V3信道压缩：4000小时，GMM
  2天，过了10遍；网络结构，
  分成了100份
  识别率下降：下降1-2个点；网络结构增大；
  MPE今天跑起来一个；

嵌入式

  DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；
  rectifier
  4层600*800
  DarkKnowledge先不训练。
  10000从头训练，nnet3 rectifier 4层600*800
  
  小模型测试，cer20+；
  bigLM的生成还有问题！

  生成结果有乱码：已解决，依赖的软件包的编译问题。
  识别率不稳定，变化比较大：测试一万句的测试集；
  将测试集分成多块，进行识别，判断是否稳定？  晓明小韩
  按照句子的长短，验证是否跟长短有关？        晓明小韩
  解码效率：

TagModel

Weight大，没有出来，路径不一样，路径的整体分值导致不一致；路径走完，但是也错了，需要查一下晓明 count：只留两个，不分词，merge可能首外面影响；

   count和分词有关：lm中词重了；
   词的长度不多，加到lm中，当做新词，lm的state就不merge；
   *加重path或词边：组合词，lm中加重；                             晓明、小韩
     测试加重“xx导演的巩俐演的”待测试。

如果加很多新词，需要找到合适的Context。之勇、晓明张艺谋：替换姜文合适，但是替换屠呦呦不合适。

   *WordVector？基于词向量的新词加重。 会训练WordVector，但是没有加入模型。
   每个词的权重不一样（distance）。
   计算PPL的，如果太低的词，就不要加了。
   加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明

   做了几个试验：
   1）加几百个词，两个的效果基本一致；
   2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果： LM和TagModel的合并fst, union，不是compose。晓明测试集：句式在Tag中

识别后处理

已知道这个词错了，可以处理。不知时，还需要处理？

勤威项目

发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；

省市路，分词，句式：tag的方法来做。晓明需要测试集，数据中心14日标完。

语音自适应

针对个人的能提高2~3%(基数CER约10%) 客户端提取ivector，传给服务器；

RNN

LSTM不稳定，和End-to-End Merge，

End-to-End算法，描述上下文不强，将stat去掉；

CTC Kaldi版本，并行的算法完成，在1400h上跑并行。

训练数据的并行读取问题？Hadoop？特征+lattice

96，实验室；92 8核GPU 16K，215 8K；

粤语16K

声学模型

已训练完成 130H

语言模型

下载语料，训练模型，PPL：1000+ 16K模型：字错误率21.78

粤语8K

69小时的（CER28%）之前测试集有问题字面和英文加入，测试集有，训练现在没有；

维语8K

声学模型

已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；

语言模型

和新疆大学调试：公司Word；实验室 35H标注文本数据已提供实验室处理； toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型： model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

声纹识别

数字串模型训练正在采集数字串语音数据，预期本月内完成；
聚类分类算法基于Affinity距离的算法研究
D-Vector
短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。之前录得语料，独立人只有100人； 16K的找到一个1200人的数据，从中挑选； 8K的采购；但是音量小，是否会有影响?

考勤系统，mic指定；定制背景模型；

加入情绪，场景的分析，分类的分析；

将测试数据加入训练，看是否有提高？

使用条件的问题：

 音量的影响？
 背景噪音：如大厅中，人声噪杂的影响？

信道适应？端点检测 Mic信道背景噪音

端点检测，信噪比计算；发音方式：坐着、站着

PLDA adaptation

@@ 第19行： / 第19行： @@
     数据已处理完，提参数中；DNN 92上跑；
     pdf：10000 8000中文 2000英文
-    GMM
+    训练第六轮；cer9.41；
-<pre>
+MPE的训练:
-Nnet3 training on LARGE DATA:
+    大体没有问题，验证一些小问题，预期下周一发过来？
-k:
-k:
-	Dataset = 4200h, LM = 1e-8, beam = 9
-	Baseline is pure-CN model, nnet3 models are multi-lingual models.
--------------------------------------------------------------------------------------------------------------------------
-  AM / test  |   test_JS   |  test_Shanxi  |  test_Shaanxi  |  test_Unknown  |  test_BJYD  |  test_huaweiFuCe  |
--------------------------------------------------------------------------------------------------------------------------
-Baseline_xEnt|    19.90    |     26.90     |      25.43     |      24.13     |    26.89    |       16.15       |
-Baseline_MPE |    18.39    |     23.97     |      22.82     |      21.35     |    24.53    |       14.22       |
--------------------------------------------------------------------------------------------------------------------------
-nnet3_4*1200 |    22.44    |     28.31     |      26.59     |      25.10     |    26.57    |       18.93       |
--------------------------------------------------------------------------------------------------------------------------
-nnet3_7*2048 |    20.06    |     24.86     |      23.08     |      21.33     |    22.40    |       14.61       |
--------------------------------------------------------------------------------------------------------------------------
-  rt:
-  beam9:                                   beam13:
-    nnet1_4*1200+7934: 0.45 (train212)        nnet1_4*1200+7934: 1.2 (train212)
-    nnet3_4*1200+8393: 0.35 (train92)         nnet3_4*1200+8393: 0.9 (train92)
-    nnet3_7*2048+8393: 0.8 (train92)          nnet3_7*2048+8393: 1.2 (train92)
-k:
-  LM = 1e-7, beam = 13
-  Baseline is 6000h+776h mpe model.
-  nnet3 model is trained by 1700h+776h data.
---------------------------------------------------------------------------
-  AM / test        | 1000ju_from_test_8000ju | 2000ju_from_test_10000ju |
---------------------------------------------------------------------------
-h_mpe(baseline)|          10.05          |           21.16          |
---------------------------------------------------------------------------
-  nnet3_6*2000     |           9.56          |           20.94          |
---------------------------------------------------------------------------
-  rt:
-  beam13:
-    nnet1_4*1200+6761: 0.6-0.7 (train212)
-    nnet3_6*2000+6761: 0.7-0.8 (train212) 0.9-1.0 (queue)
-MPE的训练
 ）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音
@@ 第71行： / 第29行： @@
     分成了100份
     识别率下降：下降1-2个点；网络结构增大；
+   MPE今天跑起来一个；
 ===嵌入式===
@@ 第78行： / 第37行： @@
     DarkKnowledge先不训练。
 从头训练，nnet3 rectifier 4层600*800
     小模型测试，cer20+；
     bigLM的生成还有问题！
-   生成结果有乱码？和机器有关 lattice
+   生成结果有乱码：已解决，依赖的软件包的编译问题。
+   识别率不稳定，变化比较大：测试一万句的测试集；
+   将测试集分成多块，进行识别，判断是否稳定？  晓明小韩
+   按照句子的长短，验证是否跟长短有关？        晓明小韩
     解码效率：
@@ 第129行： / 第91行： @@
 *End-to-End算法，描述上下文不强，将stat去掉；
-On 1400h Chinese data, raid96.
+CTC Kaldi版本，并行的算法完成，在1400h上跑并行。
-已找到MPE的训练方法，正在训练；
-MPE有个初步结果，提高0.4个点；
-MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
-没有状态；
-CTC 单因子，context dependent to independe
-End-to-End = CTC + CIphone
-End-to-End + MPE已做完
-小数据集没有问题了，MPE的并行有问题；
-在大数据集上训练验证。
-单机完成；
-一个月完成大模型的训练；
-目前需要解决的：大约1个月，上线约需要3个月；
-并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3
-CDphone ： 搞定，效果还在验证中 h1clg
-CTC Kaldi版本
+训练数据的并行读取问题？Hadoop？特征+lattice
 ，实验室；92 8核GPU 16K，215 8K；
@@ 第162行： / 第105行： @@
 ==粤语8K==
-小时的，和30小时的（CER45%），没有变化，好了一点点；
+小时的（CER28%）
-CER：44%；
+之前测试集有问题
-只训练最后一层，华为信道；只训练了声学，语言没有更新；
+字面和英文加入，测试集有，训练现在没有；
-查错，找原因；语言模型训练；
 ==维语8K==

“Sinovoice-2015-12-09”版本间的差异

2015年12月9日 (三) 06:00的版本

目录

数据

语音数据

大模型

嵌入式

TagModel

勤威项目

语音自适应

RNN

粤语16K

声学模型

语言模型

粤语8K

维语8K

声学模型

语言模型

声纹识别

导航菜单

个人工具

名字空间

变种

查看

操作

搜索

导航

工具