<?xml version="1.0"?>
<?xml-stylesheet type="text/css" href="http://index.cslt.org/mediawiki/skins/common/feed.css?303"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-cn">
		<id>http://index.cslt.org/mediawiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Yanglibo</id>
		<title>cslt Wiki - 用户贡献 [zh-cn]</title>
		<link rel="self" type="application/atom+xml" href="http://index.cslt.org/mediawiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Yanglibo"/>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/%E7%89%B9%E6%AE%8A:%E7%94%A8%E6%88%B7%E8%B4%A1%E7%8C%AE/Yanglibo"/>
		<updated>2026-04-15T20:19:47Z</updated>
		<subtitle>用户贡献</subtitle>
		<generator>MediaWiki 1.23.3</generator>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-2-25</id>
		<title>Sinovoice-2016-2-25</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-2-25"/>
				<updated>2016-02-25T06:45:19Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
任务优先&lt;br /&gt;
覆盖优先&lt;br /&gt;
&lt;br /&gt;
领域和口音或信道的覆盖性！！！&lt;br /&gt;
Darkknowledge方法&lt;br /&gt;
标注：听不懂的掠过；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h; 目标200小时；&lt;br /&gt;
16K标注，灵云，180小时，收集验收；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
Condition: LM:1e-5/1e-9&lt;br /&gt;
                                            test_8000ju     test_10000ju                      &lt;br /&gt;
 6000H 600*4_800  xEnt                    :  15.16            28.03&lt;br /&gt;
 6000H 600*4_800  mpe                     :  12.09            23.51&lt;br /&gt;
 6776H 1200*4_10000 mpe                   :  9.48             18.07&lt;br /&gt;
 &lt;br /&gt;
 10000H 600*4_800 xEnt（迭代21轮）        :  15.91&lt;br /&gt;
 10000H 600*4_800 xEnt（迭代完成）        :  15.56            26.71&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代1.7轮)      :  10.12&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代2.6轮)      :  9.73&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代3.8轮)      :  9.51&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代5.1轮)      :  9.53&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代6.0轮)      :  9.41             17.75&lt;br /&gt;
 10000H 2048*7_12000 xEnt(700.mdl  )      :  9.35             17.71&lt;br /&gt;
 10000H 2048*7_12000 xEnt(800.mdl  )      :  9.27             17.57&lt;br /&gt;
 10000H 2048*7_12000 xEnt(900.mdl  )      :  9.20             17.51&lt;br /&gt;
 10000H 2048*7_12000 xEnt(965.mdl  )      :  9.20             17.60&lt;br /&gt;
 10000H 2048*7_12000 200H mpe(2.mdl  )    :  8.80             15.99&lt;br /&gt;
 10000H 2048*7_12000 200H mpe(8.mdl  )    :  8.71             15.91&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(13.mdl)    :  8.60             15.84&lt;br /&gt;
&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(13.mdl)    :  8.60             15.84&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(17.mdl)    :  8.46             15.76&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(26.mdl)    :  8.47             15.71&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(35.mdl)    :  8.43             15.84&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(42.mdl)    :  8.40             15.87&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(56.mdl)    :  8.49             15.96&lt;br /&gt;
&lt;br /&gt;
10000H 2048*7_6565 chain (2700.mdl)      :  8.90             17.51&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
10000小时MPE，开跑，但是提升空间不大。&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
&lt;br /&gt;
结果如下：&lt;br /&gt;
|                  |   BJYD  |   JS2h  |ShaanXi2h| ShanXi2h|huaweiFuCe|UnKnown2h|&lt;br /&gt;
| nnet1 1400h MPE  |  22.49  |  19.81  |  19.63  |  21.90  |  16.72   |  22.00  |&lt;br /&gt;
| nnet1 4200h xEnt |  26.89  |  19.90  |  25.43  |  26.90  |  16.15   |  24.13  |&lt;br /&gt;
| nnet1 4200h MPE  |  24.53  |  18.39  |  22.82  |  23.97  |  14.22   |  21.35  |&lt;br /&gt;
&lt;br /&gt;
8k:&lt;br /&gt;
                                              huaweiFuCe&lt;br /&gt;
 nnet3_xEnt 7*2048+8393   :          14.61&lt;br /&gt;
 &lt;br /&gt;
 chain 7*2048+6558 200.mdl:          17.83&lt;br /&gt;
 chain             400.mdl:          17.09&lt;br /&gt;
 chain             600.mdl:          18.13&lt;br /&gt;
 chain             800.mdl:          19.05&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
在A01辽宁移动测试集上的实验结果：&lt;br /&gt;
dnn模型（mpe增量训练后）：                          22.39&lt;br /&gt;
华为信道模型：                                      20.26&lt;br /&gt;
用辽宁移动数据在华为信道模型上做增量（6 mdl）：     18.16&lt;br /&gt;
用辽宁移动数据在华为信道模型上做增量（16 mdl）：    17.85&lt;br /&gt;
&lt;br /&gt;
平安提高1个点；客户测试集提升3个点；&lt;br /&gt;
分析一下客户错误的原因？在LM上提升。是否有奇怪的噪声。&lt;br /&gt;
&lt;br /&gt;
丢字问题：远端被识别为噪音。 sil_scale可以捞一些回来。&lt;br /&gt;
找一个TestCase，怎么都调不回来的。（灵云输入法前面丢字）&lt;br /&gt;
16K的少些，8K的比较多；&lt;br /&gt;
产品测试和Kaldi测试，小韩跑下&lt;br /&gt;
&lt;br /&gt;
postscale乘法？指数？   softmax，则在之前乘，否则后乘，指数的scale，调节范围窄，需要试下，调整范围大些&lt;br /&gt;
里面可能有问题，需要BadCase后，查一下。&lt;br /&gt;
&lt;br /&gt;
平安100小时客户模型：&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
new	100小时Inc，只替换声学模型	100小时Inc，替换声学语言模型&lt;br /&gt;
Agent	User	Entire	pingan_kf_1h	pingan_kh_1h	Agent	User	Entire	pingan_kf_1h	pingan_kh_1h	Agent	User	Entire	pingan_kf_1h	pingan_kh_1h&lt;br /&gt;
0.1069	0.3518	0.1495			0.11249	0.3629	0.1442	0.0641	0.3307	0.11861	0.3427	0.1523	0.0664	0.324&lt;br /&gt;
&lt;br /&gt;
0.1095	0.3636	0.1403	0.0728	0.3756	0.11618	0.3577	0.1445	0.07501	0.3623	0.12014	0.357	0.1476	0.0779	0.35871&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
PPL 150&lt;br /&gt;
Test语料，加入LM，分析确认是AM还是LM上加重？&lt;br /&gt;
口音、流畅度&lt;br /&gt;
Kaldi解码地址和结果一起发&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
  * 10000h-chain 5*400+800 has been training.&lt;br /&gt;
  * Dark-knowledge training scripts ready&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
(1) 现在Chain model在大数据上遇到的瓶颈看起来是用的TDNN前端。应该改用LSTM前端以描述状态。&lt;br /&gt;
(2) LSTM对特征context不足，应结合TDNN&lt;br /&gt;
(3) LSTM不必特别多层，也不必所有gate都用上，只要能描述状态变化即可。&lt;br /&gt;
(4) 倾向构造这样的结构，底层是TDNN，高层是LSTM，LSTM只有一层即可，同时尽可能简化。&lt;br /&gt;
    LSTM+TDNN+Chain大模型中加入状态的信息； &lt;br /&gt;
    Lattice-Alignment&lt;br /&gt;
    &lt;br /&gt;
    LSTM + TDNN + Chain，跑了一个变差，小的100做的，大网络小数据；&lt;br /&gt;
    Chain，说活人+ASR，Chain+MPE的模型    &lt;br /&gt;
&lt;br /&gt;
(5) TDNN + state + Chain objective或许会比TDNN+state后接MPE有所提高。或者，一个类似的CTC+MPE objective function. &lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
新松机器人：&lt;br /&gt;
  接口&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
*加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
:* 新词加重及添加&lt;br /&gt;
加重新词，新建Path了，新词列表，1Gram，大于1的没有写。&lt;br /&gt;
Path加重；&lt;br /&gt;
老词构造新词，修改fst，再转hclg；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）  FreeTalk&lt;br /&gt;
90小时的（CER27.5%）质检&lt;br /&gt;
190小时，73%&lt;br /&gt;
&lt;br /&gt;
英文单词还没有加（英文的标音：用粤语的音素标）；&lt;br /&gt;
粤英文的模型，需要训练；&lt;br /&gt;
句子长，有两句，将CER拉下来了，分析这两句。&lt;br /&gt;
中英混，提高了2个点；对英文自身的提升有多少？统计一下。&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
真实场景下的测试集？考勤机里面的数据整理出来。&lt;br /&gt;
考勤机Adaptation训练。&lt;br /&gt;
重训练和Adaptation；&lt;br /&gt;
&lt;br /&gt;
[新疆伽师]&lt;br /&gt;
Mic模型；26日；PLDA&lt;br /&gt;
需要10人的数据；&lt;br /&gt;
&lt;br /&gt;
8个Phone和1个Tele的录音模型已训练完；&lt;br /&gt;
跨信道，阈值不一致；&lt;br /&gt;
需要解决跨信道的识别问题；&lt;br /&gt;
&lt;br /&gt;
手机和固定电话，需要分开测试；&lt;br /&gt;
ubm256，需要加大；&lt;br /&gt;
组织一下数据，跑D-vector实验；&lt;br /&gt;
&lt;br /&gt;
测试集，真实场景的&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-2-25</id>
		<title>Sinovoice-2016-2-25</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-2-25"/>
				<updated>2016-02-25T05:40:07Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
任务优先&lt;br /&gt;
覆盖优先&lt;br /&gt;
&lt;br /&gt;
领域和口音或信道的覆盖性！！！&lt;br /&gt;
Darkknowledge方法&lt;br /&gt;
标注：听不懂的掠过；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h; 目标200小时；&lt;br /&gt;
16K标注，灵云，180小时，收集验收；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
Condition: LM:1e-5/1e-9&lt;br /&gt;
                                            test_8000ju     test_10000ju                      &lt;br /&gt;
 6000H 600*4_800  xEnt                    :  15.16            28.03&lt;br /&gt;
 6000H 600*4_800  mpe                     :  12.09            23.51&lt;br /&gt;
 6776H 1200*4_10000 mpe                   :  9.48             18.07&lt;br /&gt;
 &lt;br /&gt;
 10000H 600*4_800 xEnt（迭代21轮）        :  15.91&lt;br /&gt;
 10000H 600*4_800 xEnt（迭代完成）        :  15.56            26.71&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代1.7轮)      :  10.12&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代2.6轮)      :  9.73&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代3.8轮)      :  9.51&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代5.1轮)      :  9.53&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代6.0轮)      :  9.41             17.75&lt;br /&gt;
 10000H 2048*7_12000 xEnt(700.mdl  )      :  9.35             17.71&lt;br /&gt;
 10000H 2048*7_12000 xEnt(800.mdl  )      :  9.27             17.57&lt;br /&gt;
 10000H 2048*7_12000 xEnt(900.mdl  )      :  9.20             17.51&lt;br /&gt;
 10000H 2048*7_12000 xEnt(965.mdl  )      :  9.20             17.60&lt;br /&gt;
 10000H 2048*7_12000 200H mpe(2.mdl  )    :  8.80             15.99&lt;br /&gt;
 10000H 2048*7_12000 200H mpe(8.mdl  )    :  8.71             15.91&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(13.mdl)    :  8.60             15.84&lt;br /&gt;
&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(13.mdl)    :  8.60             15.84&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(17.mdl)    :  8.46             15.76&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(26.mdl)    :  8.47             15.71&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(35.mdl)    :  8.43             15.84&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(42.mdl)    :  8.40             15.87&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(56.mdl)    :  8.49             15.96&lt;br /&gt;
&lt;br /&gt;
10000H 2048*7_6565 chain (2700.mdl)      :  8.90             17.51&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
10000小时MPE，开跑，但是提升空间不大。&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
&lt;br /&gt;
结果如下：&lt;br /&gt;
|                  |   BJYD  |   JS2h  |ShaanXi2h| ShanXi2h|huaweiFuCe|UnKnown2h|&lt;br /&gt;
| nnet1 1400h MPE  |  22.49  |  19.81  |  19.63  |  21.90  |  16.72   |  22.00  |&lt;br /&gt;
| nnet1 4200h xEnt |  26.89  |  19.90  |  25.43  |  26.90  |  16.15   |  24.13  |&lt;br /&gt;
| nnet1 4200h MPE  |  24.53  |  18.39  |  22.82  |  23.97  |  14.22   |  21.35  |&lt;br /&gt;
&lt;br /&gt;
8k:&lt;br /&gt;
                                              huaweiFuCe&lt;br /&gt;
 nnet3_xEnt 7*2048+8393   :          14.61&lt;br /&gt;
 &lt;br /&gt;
 chain 7*2048+6558 200.mdl:          17.83&lt;br /&gt;
 chain             400.mdl:          17.09&lt;br /&gt;
 chain             600.mdl:          18.13&lt;br /&gt;
 chain             800.mdl:          19.05&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
在A01辽宁移动测试集上的实验结果：&lt;br /&gt;
dnn模型（mpe增量训练后）：                          22.39&lt;br /&gt;
华为信道模型：                                      20.26&lt;br /&gt;
用辽宁移动数据在华为信道模型上做增量（6 mdl）：     18.16&lt;br /&gt;
用辽宁移动数据在华为信道模型上做增量（16 mdl）：    17.85&lt;br /&gt;
&lt;br /&gt;
平安提高1个点；客户测试集提升3个点；&lt;br /&gt;
分析一下客户错误的原因？在LM上提升。是否有奇怪的噪声。&lt;br /&gt;
&lt;br /&gt;
丢字问题：远端被识别为噪音。 sil_scale可以捞一些回来。&lt;br /&gt;
postscale乘法？指数？&lt;br /&gt;
找一个TestCase，怎么都调不回来的。（灵云输入法前面丢字）&lt;br /&gt;
16K的少些，8K的比较多；&lt;br /&gt;
&lt;br /&gt;
平安100小时客户模型：&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
new	100小时Inc，只替换声学模型	100小时Inc，替换声学语言模型&lt;br /&gt;
Agent	User	Entire	pingan_kf_1h	pingan_kh_1h	Agent	User	Entire	pingan_kf_1h	pingan_kh_1h	Agent	User	Entire	pingan_kf_1h	pingan_kh_1h&lt;br /&gt;
0.1069	0.3518	0.1495			0.11249	0.3629	0.1442	0.0641	0.3307	0.11861	0.3427	0.1523	0.0664	0.324&lt;br /&gt;
0.1095	0.3636	0.1403	0.0728	0.3756	0.11618	0.3577	0.1445	0.07501	0.3623	0.12014	0.357	0.1476	0.0779	0.35871&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
  * 10000h-chain 5*400+800 has been training.&lt;br /&gt;
  * Dark-knowledge training scripts ready&lt;br /&gt;
&lt;br /&gt;
16k 嵌入式模型最新结果如下：&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
                  | nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE |   chain   |&lt;br /&gt;
test_8000ju  |    16.12    |   11.31   |   14.89    |   12.77   |   11.74   |&lt;br /&gt;
test_10000ju |    28.83   |   23.82   |   27.43    |   25.05   |   22.35   |&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
LM = 1e-5, 1e-9 biglm, beam = 13&lt;br /&gt;
&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
                    | nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE |   chain   |&lt;br /&gt;
test_8000ju   |    16.12       |   11.31        |   14.89       |   12.77        |   11.10   |&lt;br /&gt;
test_10000ju |    28.83       |   23.82        |   27.43       |   25.05        |   21.33   |&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
前4个模型结构是4*600+800，chain模型结构是5*400+800。&lt;br /&gt;
与nnet1_MPE相比，chain模型在8000ju上稍差，但在10000句上已经明显超过了。&lt;br /&gt;
目前chain模型训练还没结束，10000h数据大约过了2遍，不到总进度的1/3，但估计再往后的提升不会太显著了。&lt;br /&gt;
&lt;br /&gt;
MPE没有做完；&lt;br /&gt;
&lt;br /&gt;
TDNN+CTC     10000小时16K&lt;br /&gt;
8K5000小时Chain&lt;br /&gt;
16K10000小时Chain&lt;br /&gt;
&lt;br /&gt;
TDDN -&amp;gt; Context -&amp;gt; 类CTC&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
(1) 现在Chain model在大数据上遇到的瓶颈看起来是用的TDNN前端。应该改用LSTM前端以描述状态。&lt;br /&gt;
(2) LSTM对特征context不足，应结合TDNN&lt;br /&gt;
(3) LSTM不必特别多层，也不必所有gate都用上，只要能描述状态变化即可。&lt;br /&gt;
(4) 倾向构造这样的结构，底层是TDNN，高层是LSTM，LSTM只有一层即可，同时尽可能简化。&lt;br /&gt;
    LSTM+TDNN+Chain大模型中加入状态的信息； 一周&lt;br /&gt;
    Lattice-Alignment&lt;br /&gt;
&lt;br /&gt;
(5) TDNN + state + Chain objective或许会比TDNN+state后接MPE有所提高。或者，一个类似的CTC+MPE objective function. &lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
新松机器人：&lt;br /&gt;
  接口&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
*加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
:* 新词加重及添加&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
&lt;br /&gt;
===End-To-End/CTC===&lt;br /&gt;
Kaldi-nnet1, Kaldi-CTC, Kaldi-Chain and Eesen on WSJ. If GPU Parallel, then on grid-12 and grid-13.&lt;br /&gt;
mpe-2 means method that considering Transition instead of CctcTransition when mpe, while&lt;br /&gt;
mpe-1 means method that considering CctcTransition.&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
          model                                                        %WER (test_eval92)    %WER (after MPE)&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
kaldi/nnet1/dnn_2048_4(cd-dnn-hmm)                                     4.18&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15                                       8.01&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter1                         7.78&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter2                       __7.73__&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Test CTC-mpe (considering CctcTransition) on aurora4.&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
model                                               %WER        learning rate&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15                    13.86&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter1          12.70       0.0002&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter2          12.28&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter3          12.43&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter4          12.34&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
CTC MPE上已成功。&lt;br /&gt;
原理上：CTC+MMI = Chain&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）  FreeTalk&lt;br /&gt;
90小时的（CER27.5%）质检&lt;br /&gt;
190小时，73%&lt;br /&gt;
&lt;br /&gt;
英文单词还没有加（英文的标音：用粤语的音素标）；&lt;br /&gt;
粤英文的模型，需要训练；&lt;br /&gt;
句子长，有两句，将CER拉下来了，分析这两句。&lt;br /&gt;
&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
真实场景下的测试集？考勤机里面的数据整理出来。&lt;br /&gt;
考勤机Adaptation训练。&lt;br /&gt;
&lt;br /&gt;
8个Phone和1个Tele的录音模型已训练完；&lt;br /&gt;
跨信道，阈值不一致；&lt;br /&gt;
需要解决跨信道的识别问题；&lt;br /&gt;
&lt;br /&gt;
手机和固定电话，需要分开测试；&lt;br /&gt;
ubm256，需要加大；&lt;br /&gt;
组织一下数据，跑D-vector实验；&lt;br /&gt;
&lt;br /&gt;
测试集，真实场景的&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-2-25</id>
		<title>Sinovoice-2016-2-25</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-2-25"/>
				<updated>2016-02-25T05:08:04Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：以“==数据==  *16K 灵云数据  10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中，通过ASR打分，取出中间的400...”为内容创建页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
任务优先&lt;br /&gt;
覆盖优先&lt;br /&gt;
&lt;br /&gt;
领域和口音或信道的覆盖性！！！&lt;br /&gt;
Darkknowledge方法&lt;br /&gt;
标注：听不懂的掠过；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h; 目标200小时；&lt;br /&gt;
16K标注，灵云，180小时，收集验收；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
Condition: LM:1e-5/1e-9&lt;br /&gt;
                                            test_8000ju     test_10000ju                      &lt;br /&gt;
 6000H 600*4_800  xEnt                    :  15.16            28.03&lt;br /&gt;
 6000H 600*4_800  mpe                     :  12.09            23.51&lt;br /&gt;
 6776H 1200*4_10000 mpe                   :  9.48             18.07&lt;br /&gt;
 &lt;br /&gt;
 10000H 600*4_800 xEnt（迭代21轮）        :  15.91&lt;br /&gt;
 10000H 600*4_800 xEnt（迭代完成）        :  15.56            26.71&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代1.7轮)      :  10.12&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代2.6轮)      :  9.73&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代3.8轮)      :  9.51&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代5.1轮)      :  9.53&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代6.0轮)      :  9.41             17.75&lt;br /&gt;
 10000H 2048*7_12000 xEnt(700.mdl  )      :  9.35             17.71&lt;br /&gt;
 10000H 2048*7_12000 xEnt(800.mdl  )      :  9.27             17.57&lt;br /&gt;
 10000H 2048*7_12000 xEnt(900.mdl  )      :  9.20             17.51&lt;br /&gt;
 10000H 2048*7_12000 xEnt(965.mdl  )      :  9.20             17.60&lt;br /&gt;
 10000H 2048*7_12000 200H mpe(2.mdl  )    :  8.80             15.99&lt;br /&gt;
 10000H 2048*7_12000 200H mpe(8.mdl  )    :  8.71             15.91&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(13.mdl)    :  8.60             15.84&lt;br /&gt;
&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(13.mdl)    :  8.60             15.84&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(17.mdl)    :  8.46             15.76&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(26.mdl)    :  8.47             15.71&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(35.mdl)    :  8.43             15.84&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(42.mdl)    :  8.40             15.87&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(56.mdl)    :  8.49             15.96&lt;br /&gt;
&lt;br /&gt;
10000H 2048*7_6565 chain (2700.mdl)      :  8.90             17.51&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
10000小时MPE，开跑，但是提升空间不大。&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
&lt;br /&gt;
结果如下：&lt;br /&gt;
|                  |   BJYD  |   JS2h  |ShaanXi2h| ShanXi2h|huaweiFuCe|UnKnown2h|&lt;br /&gt;
| nnet1 1400h MPE  |  22.49  |  19.81  |  19.63  |  21.90  |  16.72   |  22.00  |&lt;br /&gt;
| nnet1 4200h xEnt |  26.89  |  19.90  |  25.43  |  26.90  |  16.15   |  24.13  |&lt;br /&gt;
| nnet1 4200h MPE  |  24.53  |  18.39  |  22.82  |  23.97  |  14.22   |  21.35  |&lt;br /&gt;
&lt;br /&gt;
8k:&lt;br /&gt;
                                              huaweiFuCe&lt;br /&gt;
 nnet3_xEnt 7*2048+8393   :          14.61&lt;br /&gt;
 &lt;br /&gt;
 chain 7*2048+6558 200.mdl:          17.83&lt;br /&gt;
 chain             400.mdl:          17.09&lt;br /&gt;
 chain             600.mdl:          18.13&lt;br /&gt;
 chain             800.mdl:          19.05&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
在A01辽宁移动测试集上的实验结果：&lt;br /&gt;
dnn模型（mpe增量训练后）：                          22.39&lt;br /&gt;
华为信道模型：                                      20.26&lt;br /&gt;
用辽宁移动数据在华为信道模型上做增量（6 mdl）：     18.16&lt;br /&gt;
用辽宁移动数据在华为信道模型上做增量（16 mdl）：    17.85&lt;br /&gt;
&lt;br /&gt;
平安提高1个点；客户测试集提升3个点；&lt;br /&gt;
分析一下客户错误的原因？在LM上提升。是否有奇怪的噪声。&lt;br /&gt;
&lt;br /&gt;
丢字问题：远端被识别为噪音。 sil_scale可以捞一些回来。&lt;br /&gt;
postscale乘法？指数？&lt;br /&gt;
找一个TestCase，怎么都调不回来的。（灵云输入法前面丢字）&lt;br /&gt;
16K的少些，8K的比较多；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
  * 10000h-chain 5*400+800 has been training.&lt;br /&gt;
  * Dark-knowledge training scripts ready&lt;br /&gt;
&lt;br /&gt;
16k 嵌入式模型最新结果如下：&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
             | nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE |   chain   |&lt;br /&gt;
test_8000ju  |    16.12   |   11.31   |   14.89    |   12.77   |   11.74   |&lt;br /&gt;
test_10000ju |    28.83   |   23.82   |   27.43    |   25.05   |   22.35   |&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
LM = 1e-5, 1e-9 biglm, beam = 13&lt;br /&gt;
&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
                    | nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE |   chain   |&lt;br /&gt;
test_8000ju   |    16.12       |   11.31        |   14.89       |   12.77        |   11.10   |&lt;br /&gt;
test_10000ju |    28.83       |   23.82        |   27.43       |   25.05        |   21.33   |&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
前4个模型结构是4*600+800，chain模型结构是5*400+800。&lt;br /&gt;
与nnet1_MPE相比，chain模型在8000ju上稍差，但在10000句上已经明显超过了。&lt;br /&gt;
目前chain模型训练还没结束，10000h数据大约过了2遍，不到总进度的1/3，但估计再往后的提升不会太显著了。&lt;br /&gt;
&lt;br /&gt;
MPE没有做完；&lt;br /&gt;
&lt;br /&gt;
TDNN+CTC     10000小时16K&lt;br /&gt;
8K5000小时Chain&lt;br /&gt;
16K10000小时Chain&lt;br /&gt;
&lt;br /&gt;
TDDN -&amp;gt; Context -&amp;gt; 类CTC&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
如果比较如下结果，似乎chain的结果还好，毕竟output少了一半。&lt;br /&gt;
&lt;br /&gt;
10000H 2048*7_12000 xEnt(965.mdl  )      :  9.20             17.60&lt;br /&gt;
10000H 2048*7_6565 chain (2700.mdl)      :  8.90             17.51&lt;br /&gt;
&lt;br /&gt;
然而，因为chain的objective中是有区分性信息的，导致这一对比不是很合理。需要等MPE出来结果再看。&lt;br /&gt;
&lt;br /&gt;
Chain 包含如下结构：             single state + MMI&lt;br /&gt;
我们现在的triphone模型包含如下结构： 3 states + MPE&lt;br /&gt;
&lt;br /&gt;
这意味着:&lt;br /&gt;
（1）Chain output 可以比较少 &lt;br /&gt;
（2）Chain+MPE可能提高不很明显 &lt;br /&gt;
（3） Chain缺少模型状态的精细结构，这些精细结构在大数据大模型时可能是有用的。&lt;br /&gt;
&lt;br /&gt;
所以这里面有个权衡，对于上下文相关建模而言，在输出一定的前提下，是牺牲state来换取更多上下文建模(Chain)，还是牺牲一些上下文来描述精细结构 (triphone)。从现在的结果看，似乎是在小模型时，前者重要，而当输出可以很大时，再加入phone context可能已经不重要了，这时state的精细结构就有意义。 这似乎可以得到结论，当我们有足够的数据和足够的计算资源的话，用triphone还是有意义。&lt;br /&gt;
&lt;br /&gt;
之所以出现上面的问题，在于梦原用的Chain是基于TDNN，即用长的context来得到state condition，或者说，NN需要经过一系列网络从context里infer出state。这一方法看起来并不能特别好地描述信号的动态特性，因为对信号的发展过程缺少记忆性。这一记忆性在HMM里信靠状态转移矩阵进行累积，在LSTM里利用recurrent connection进行累积。 这是为什么TDNN离开state，效果不明显的原因。&lt;br /&gt;
&lt;br /&gt;
如果要想较大结构里描述精细结构，或者TDNN+ HMM state (triphone系统)，或者LSTM + CD phone。后者用LSTM来代替HMM,即end-to-end training。传统CTC用的是这一结构。&lt;br /&gt;
&lt;br /&gt;
所以在我看来， LSTM + CD phone应该是最理想的结构，LSTM取代HMM的离散状态成为连续状态。如果能用Chain的objective，则应该足够好了。这就是LSTM的Chain model.&lt;br /&gt;
&lt;br /&gt;
可以总结如下：&lt;br /&gt;
(1) 训练中在模型输出一定时，优先描述context，再描述state。在模型较大时，state必须描述。&lt;br /&gt;
(2) state描述可以用HMM，也可以用RNN(LSTM)，前者简单，后者精确。&lt;br /&gt;
(3) 当用LSTM描述状态时，网络输出不必考虑state。&lt;br /&gt;
(4) 训练时需要考虑alignment不确定性问题，CTC解决此问题。&lt;br /&gt;
(5) 训练时需要考虑训练目标和评价指标(WER)匹配，MMI/MPE解决此问题。&lt;br /&gt;
(6) 可以在训练时考虑CTC+MPE/MMI。可以逐步加（一般方法），可能会有问题，因为MPE又遇到不确定性，可以同时加。小汤说Chain是后者，我需要再确认。&lt;br /&gt;
(7) TDNN增加上下的context，有利于更多信息加入，部分解决state或context dependent的问题，但和LSTM/MPE/CTC等并不冲突，也没什么直接关系。&lt;br /&gt;
(8) TDNN + CD state 在大数据下看起来是最容易训练的方法，即是我们的state-of-the-art系统。&lt;br /&gt;
&lt;br /&gt;
建议如下：&lt;br /&gt;
(1) 现在Chain model在大数据上遇到的瓶颈看起来是用的TDNN前端。应该改用LSTM前端以描述状态。&lt;br /&gt;
(2) LSTM对特征context不足，应结合TDNN&lt;br /&gt;
(3) LSTM不必特别多层，也不必所有gate都用上，只要能描述状态变化即可。&lt;br /&gt;
(4) 倾向构造这样的结构，底层是TDNN，高层是LSTM，LSTM只有一层即可，同时尽可能简化。&lt;br /&gt;
    LSTM+TDNN+Chain大模型中加入状态的信息； 一周&lt;br /&gt;
    Lattice-Alignment&lt;br /&gt;
&lt;br /&gt;
(5) TDNN + state + Chain objective或许会比TDNN+state后接MPE有所提高。或者，一个类似的CTC+MPE objective function. &lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
新松机器人：&lt;br /&gt;
  接口&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
*加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
:* 新词加重及添加&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
&lt;br /&gt;
===End-To-End/CTC===&lt;br /&gt;
Kaldi-nnet1, Kaldi-CTC, Kaldi-Chain and Eesen on WSJ. If GPU Parallel, then on grid-12 and grid-13.&lt;br /&gt;
mpe-2 means method that considering Transition instead of CctcTransition when mpe, while&lt;br /&gt;
mpe-1 means method that considering CctcTransition.&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
          model                                                        %WER (test_eval92)    %WER (after MPE)&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
kaldi/nnet1/dnn_2048_4(cd-dnn-hmm)                                     4.18&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15                                       8.01&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter1                         7.78&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter2                       __7.73__&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Test CTC-mpe (considering CctcTransition) on aurora4.&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
model                                               %WER        learning rate&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15                    13.86&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter1          12.70       0.0002&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter2          12.28&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter3          12.43&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter4          12.34&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
CTC MPE上已成功。&lt;br /&gt;
原理上：CTC+MMI = Chain&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）  FreeTalk&lt;br /&gt;
90小时的（CER27.5%）质检&lt;br /&gt;
190小时，73%&lt;br /&gt;
&lt;br /&gt;
英文单词还没有加（英文的标音：用粤语的音素标）；&lt;br /&gt;
粤英文的模型，需要训练；&lt;br /&gt;
句子长，有两句，将CER拉下来了，分析这两句。&lt;br /&gt;
&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
真实场景下的测试集？考勤机里面的数据整理出来。&lt;br /&gt;
考勤机Adaptation训练。&lt;br /&gt;
&lt;br /&gt;
8个Phone和1个Tele的录音模型已训练完；&lt;br /&gt;
跨信道，阈值不一致；&lt;br /&gt;
需要解决跨信道的识别问题；&lt;br /&gt;
&lt;br /&gt;
手机和固定电话，需要分开测试；&lt;br /&gt;
ubm256，需要加大；&lt;br /&gt;
组织一下数据，跑D-vector实验；&lt;br /&gt;
&lt;br /&gt;
测试集，真实场景的&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status</id>
		<title>Sinovoice-Weekly-status</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status"/>
				<updated>2016-02-25T05:07:40Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Sinovoice-2013-12-24|2013-12-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-06|2014-01-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-13|2014-01-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-20|2014-01-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-12-10|2014-02-10]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-17|2014-02-17]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-25|2014-02-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-04|2014-03-04]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-11|2014-03-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-18|2014-03-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-25|2014-03-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-01|2014-04-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-08|2014-04-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-15|2014-04-15]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-22|2014-04-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-18|2015-08-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-25|2015-08-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-01|2015-09-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-08|2015-09-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-18|2015-09-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-22|2015-09-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-13|2015-10-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-21|2015-10-21]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-28|2015-10-28]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-05|2015-11-05]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-11|2015-11-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-18|2015-11-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-25|2015-11-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-02|2015-12-02]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-09|2015-12-09]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-16|2015-12-16]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-23|2015-12-23]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-30|2015-12-30]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-06|2016-1-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-13|2016-1-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-20|2016-1-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-27|2016-1-27]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-2-2|2016-2-2]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-2-18|2016-2-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-2-25|2016-2-25]]&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-2-18</id>
		<title>Sinovoice-2016-2-18</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-2-18"/>
				<updated>2016-02-18T07:03:30Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
任务优先&lt;br /&gt;
覆盖优先&lt;br /&gt;
&lt;br /&gt;
领域和口音或信道的覆盖性！！！&lt;br /&gt;
Darkknowledge方法&lt;br /&gt;
标注：听不懂的掠过；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h; 目标200小时；&lt;br /&gt;
16K标注，灵云，180小时，收集验收；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
Condition: LM:1e-5/1e-9&lt;br /&gt;
                                            test_8000ju     test_10000ju                      &lt;br /&gt;
 6000H 600*4_800  xEnt                    :  15.16            28.03&lt;br /&gt;
 6000H 600*4_800  mpe                     :  12.09            23.51&lt;br /&gt;
 6776H 1200*4_10000 mpe                   :  9.48             18.07&lt;br /&gt;
 &lt;br /&gt;
 10000H 600*4_800 xEnt（迭代21轮）        :  15.91&lt;br /&gt;
 10000H 600*4_800 xEnt（迭代完成）        :  15.56            26.71&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代1.7轮)      :  10.12&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代2.6轮)      :  9.73&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代3.8轮)      :  9.51&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代5.1轮)      :  9.53&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代6.0轮)      :  9.41             17.75&lt;br /&gt;
 10000H 2048*7_12000 xEnt(700.mdl  )      :  9.35             17.71&lt;br /&gt;
 10000H 2048*7_12000 xEnt(800.mdl  )      :  9.27             17.57&lt;br /&gt;
 10000H 2048*7_12000 xEnt(900.mdl  )      :  9.20             17.51&lt;br /&gt;
 10000H 2048*7_12000 xEnt(965.mdl  )      :  9.20             17.60&lt;br /&gt;
 10000H 2048*7_12000 200H mpe(2.mdl  )    :  8.80             15.99&lt;br /&gt;
 10000H 2048*7_12000 200H mpe(8.mdl  )    :  8.71             15.91&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(13.mdl)    :  8.60             15.84&lt;br /&gt;
&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(13.mdl)    :  8.60             15.84&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(17.mdl)    :  8.46             15.76&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(26.mdl)    :  8.47             15.71&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(35.mdl)    :  8.43             15.84&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(42.mdl)    :  8.40             15.87&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(56.mdl)    :  8.49             15.96&lt;br /&gt;
&lt;br /&gt;
10000H 2048*7_6565 chain (2700.mdl)      :  8.90             17.51&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
10000小时MPE，开跑，但是提升空间不大。&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
&lt;br /&gt;
结果如下：&lt;br /&gt;
|                  |   BJYD  |   JS2h  |ShaanXi2h| ShanXi2h|huaweiFuCe|UnKnown2h|&lt;br /&gt;
| nnet1 1400h MPE  |  22.49  |  19.81  |  19.63  |  21.90  |  16.72   |  22.00  |&lt;br /&gt;
| nnet1 4200h xEnt |  26.89  |  19.90  |  25.43  |  26.90  |  16.15   |  24.13  |&lt;br /&gt;
| nnet1 4200h MPE  |  24.53  |  18.39  |  22.82  |  23.97  |  14.22   |  21.35  |&lt;br /&gt;
&lt;br /&gt;
8k:&lt;br /&gt;
                                              huaweiFuCe&lt;br /&gt;
 nnet3_xEnt 7*2048+8393   :          14.61&lt;br /&gt;
 &lt;br /&gt;
 chain 7*2048+6558 200.mdl:          17.83&lt;br /&gt;
 chain             400.mdl:          17.09&lt;br /&gt;
 chain             600.mdl:          18.13&lt;br /&gt;
 chain             800.mdl:          19.05&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
在A01辽宁移动测试集上的实验结果：&lt;br /&gt;
dnn模型（mpe增量训练后）：                          22.39&lt;br /&gt;
华为信道模型：                                      20.26&lt;br /&gt;
用辽宁移动数据在华为信道模型上做增量（6 mdl）：     18.16&lt;br /&gt;
用辽宁移动数据在华为信道模型上做增量（16 mdl）：    17.85&lt;br /&gt;
&lt;br /&gt;
平安提高1个点；客户测试集提升3个点；&lt;br /&gt;
分析一下客户错误的原因？在LM上提升。是否有奇怪的噪声。&lt;br /&gt;
&lt;br /&gt;
丢字问题：远端被识别为噪音。 sil_scale可以捞一些回来。&lt;br /&gt;
postscale乘法？指数？&lt;br /&gt;
找一个TestCase，怎么都调不回来的。（灵云输入法前面丢字）&lt;br /&gt;
16K的少些，8K的比较多；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
  * 10000h-chain 5*400+800 has been training.&lt;br /&gt;
  * Dark-knowledge training scripts ready&lt;br /&gt;
&lt;br /&gt;
16k 嵌入式模型最新结果如下：&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
             | nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE |   chain   |&lt;br /&gt;
test_8000ju  |    16.12   |   11.31   |   14.89    |   12.77   |   11.74   |&lt;br /&gt;
test_10000ju |    28.83   |   23.82   |   27.43    |   25.05   |   22.35   |&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
LM = 1e-5, 1e-9 biglm, beam = 13&lt;br /&gt;
&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
                    | nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE |   chain   |&lt;br /&gt;
test_8000ju   |    16.12       |   11.31        |   14.89       |   12.77        |   11.10   |&lt;br /&gt;
test_10000ju |    28.83       |   23.82        |   27.43       |   25.05        |   21.33   |&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
前4个模型结构是4*600+800，chain模型结构是5*400+800。&lt;br /&gt;
与nnet1_MPE相比，chain模型在8000ju上稍差，但在10000句上已经明显超过了。&lt;br /&gt;
目前chain模型训练还没结束，10000h数据大约过了2遍，不到总进度的1/3，但估计再往后的提升不会太显著了。&lt;br /&gt;
&lt;br /&gt;
MPE没有做完；&lt;br /&gt;
&lt;br /&gt;
TDNN+CTC     10000小时16K&lt;br /&gt;
8K5000小时Chain&lt;br /&gt;
16K10000小时Chain&lt;br /&gt;
&lt;br /&gt;
TDDN -&amp;gt; Context -&amp;gt; 类CTC&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
如果比较如下结果，似乎chain的结果还好，毕竟output少了一半。&lt;br /&gt;
&lt;br /&gt;
10000H 2048*7_12000 xEnt(965.mdl  )      :  9.20             17.60&lt;br /&gt;
10000H 2048*7_6565 chain (2700.mdl)      :  8.90             17.51&lt;br /&gt;
&lt;br /&gt;
然而，因为chain的objective中是有区分性信息的，导致这一对比不是很合理。需要等MPE出来结果再看。&lt;br /&gt;
&lt;br /&gt;
Chain 包含如下结构：             single state + MMI&lt;br /&gt;
我们现在的triphone模型包含如下结构： 3 states + MPE&lt;br /&gt;
&lt;br /&gt;
这意味着:&lt;br /&gt;
（1）Chain output 可以比较少 &lt;br /&gt;
（2）Chain+MPE可能提高不很明显 &lt;br /&gt;
（3） Chain缺少模型状态的精细结构，这些精细结构在大数据大模型时可能是有用的。&lt;br /&gt;
&lt;br /&gt;
所以这里面有个权衡，对于上下文相关建模而言，在输出一定的前提下，是牺牲state来换取更多上下文建模(Chain)，还是牺牲一些上下文来描述精细结构 (triphone)。从现在的结果看，似乎是在小模型时，前者重要，而当输出可以很大时，再加入phone context可能已经不重要了，这时state的精细结构就有意义。 这似乎可以得到结论，当我们有足够的数据和足够的计算资源的话，用triphone还是有意义。&lt;br /&gt;
&lt;br /&gt;
之所以出现上面的问题，在于梦原用的Chain是基于TDNN，即用长的context来得到state condition，或者说，NN需要经过一系列网络从context里infer出state。这一方法看起来并不能特别好地描述信号的动态特性，因为对信号的发展过程缺少记忆性。这一记忆性在HMM里信靠状态转移矩阵进行累积，在LSTM里利用recurrent connection进行累积。 这是为什么TDNN离开state，效果不明显的原因。&lt;br /&gt;
&lt;br /&gt;
如果要想较大结构里描述精细结构，或者TDNN+ HMM state (triphone系统)，或者LSTM + CD phone。后者用LSTM来代替HMM,即end-to-end training。传统CTC用的是这一结构。&lt;br /&gt;
&lt;br /&gt;
所以在我看来， LSTM + CD phone应该是最理想的结构，LSTM取代HMM的离散状态成为连续状态。如果能用Chain的objective，则应该足够好了。这就是LSTM的Chain model.&lt;br /&gt;
&lt;br /&gt;
可以总结如下：&lt;br /&gt;
(1) 训练中在模型输出一定时，优先描述context，再描述state。在模型较大时，state必须描述。&lt;br /&gt;
(2) state描述可以用HMM，也可以用RNN(LSTM)，前者简单，后者精确。&lt;br /&gt;
(3) 当用LSTM描述状态时，网络输出不必考虑state。&lt;br /&gt;
(4) 训练时需要考虑alignment不确定性问题，CTC解决此问题。&lt;br /&gt;
(5) 训练时需要考虑训练目标和评价指标(WER)匹配，MMI/MPE解决此问题。&lt;br /&gt;
(6) 可以在训练时考虑CTC+MPE/MMI。可以逐步加（一般方法），可能会有问题，因为MPE又遇到不确定性，可以同时加。小汤说Chain是后者，我需要再确认。&lt;br /&gt;
(7) TDNN增加上下的context，有利于更多信息加入，部分解决state或context dependent的问题，但和LSTM/MPE/CTC等并不冲突，也没什么直接关系。&lt;br /&gt;
(8) TDNN + CD state 在大数据下看起来是最容易训练的方法，即是我们的state-of-the-art系统。&lt;br /&gt;
&lt;br /&gt;
建议如下：&lt;br /&gt;
(1) 现在Chain model在大数据上遇到的瓶颈看起来是用的TDNN前端。应该改用LSTM前端以描述状态。&lt;br /&gt;
(2) LSTM对特征context不足，应结合TDNN&lt;br /&gt;
(3) LSTM不必特别多层，也不必所有gate都用上，只要能描述状态变化即可。&lt;br /&gt;
(4) 倾向构造这样的结构，底层是TDNN，高层是LSTM，LSTM只有一层即可，同时尽可能简化。&lt;br /&gt;
    LSTM+TDNN+Chain大模型中加入状态的信息； 一周&lt;br /&gt;
    Lattice-Alignment&lt;br /&gt;
&lt;br /&gt;
(5) TDNN + state + Chain objective或许会比TDNN+state后接MPE有所提高。或者，一个类似的CTC+MPE objective function. &lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
新松机器人：&lt;br /&gt;
  接口&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
*加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
:* 新词加重及添加&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
&lt;br /&gt;
===End-To-End/CTC===&lt;br /&gt;
Kaldi-nnet1, Kaldi-CTC, Kaldi-Chain and Eesen on WSJ. If GPU Parallel, then on grid-12 and grid-13.&lt;br /&gt;
mpe-2 means method that considering Transition instead of CctcTransition when mpe, while&lt;br /&gt;
mpe-1 means method that considering CctcTransition.&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
          model                                                        %WER (test_eval92)    %WER (after MPE)&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
kaldi/nnet1/dnn_2048_4(cd-dnn-hmm)                                     4.18&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15                                       8.01&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter1                         7.78&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter2                       __7.73__&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Test CTC-mpe (considering CctcTransition) on aurora4.&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
model                                               %WER        learning rate&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15                    13.86&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter1          12.70       0.0002&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter2          12.28&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter3          12.43&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter4          12.34&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
CTC MPE上已成功。&lt;br /&gt;
原理上：CTC+MMI = Chain&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）  FreeTalk&lt;br /&gt;
90小时的（CER27.5%）质检&lt;br /&gt;
190小时，73%&lt;br /&gt;
&lt;br /&gt;
英文单词还没有加（英文的标音：用粤语的音素标）；&lt;br /&gt;
粤英文的模型，需要训练；&lt;br /&gt;
句子长，有两句，将CER拉下来了，分析这两句。&lt;br /&gt;
&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
真实场景下的测试集？考勤机里面的数据整理出来。&lt;br /&gt;
考勤机Adaptation训练。&lt;br /&gt;
&lt;br /&gt;
8个Phone和1个Tele的录音模型已训练完；&lt;br /&gt;
跨信道，阈值不一致；&lt;br /&gt;
需要解决跨信道的识别问题；&lt;br /&gt;
&lt;br /&gt;
手机和固定电话，需要分开测试；&lt;br /&gt;
ubm256，需要加大；&lt;br /&gt;
组织一下数据，跑D-vector实验；&lt;br /&gt;
&lt;br /&gt;
测试集，真实场景的&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-2-18</id>
		<title>Sinovoice-2016-2-18</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-2-18"/>
				<updated>2016-02-18T05:11:35Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：以“==数据==  *16K 灵云数据  10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中，通过ASR打分，取出中间的400...”为内容创建页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
16K标注，灵云，180小时，收集验收；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
Condition: LM:1e-5/1e-9&lt;br /&gt;
                                            test_8000ju     test_10000ju                      &lt;br /&gt;
 6000H 600*4_800  xEnt                    :  15.16            28.03&lt;br /&gt;
 6000H 600*4_800  mpe                     :  12.09            23.51&lt;br /&gt;
 6776H 1200*4_10000 mpe                   :  9.48             18.07&lt;br /&gt;
 &lt;br /&gt;
 10000H 600*4_800 xEnt（迭代21轮）        :  15.91&lt;br /&gt;
 10000H 600*4_800 xEnt（迭代完成）        :  15.56            26.71&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代1.7轮)      :  10.12&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代2.6轮)      :  9.73&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代3.8轮)      :  9.51&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代5.1轮)      :  9.53&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代6.0轮)      :  9.41             17.75&lt;br /&gt;
 10000H 2048*7_12000 xEnt(700.mdl  )      :  9.35             17.71&lt;br /&gt;
 10000H 2048*7_12000 xEnt(800.mdl  )      :  9.27             17.57&lt;br /&gt;
 10000H 2048*7_12000 xEnt(900.mdl  )      :  9.20             17.51&lt;br /&gt;
 10000H 2048*7_12000 xEnt(965.mdl  )      :  9.20             17.60&lt;br /&gt;
 10000H 2048*7_12000 200H mpe(2.mdl  )    :  8.80             15.99&lt;br /&gt;
 10000H 2048*7_12000 200H mpe(8.mdl  )    :  8.71             15.91&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(13.mdl)    :  8.60             15.84&lt;br /&gt;
&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(13.mdl)    :  8.60             15.84&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(17.mdl)    :  8.46             15.76&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(26.mdl)    :  8.47             15.71&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(35.mdl)    :  8.43             15.84&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(42.mdl)    :  8.40             15.87&lt;br /&gt;
 10000H 2048*7_12000 1000H mpe(56.mdl)    :  8.49             15.96&lt;br /&gt;
&lt;br /&gt;
10000H 2048*7_6565 chain (2700.mdl)      :  8.90             17.51&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
10000小时MPE，开跑，但是提升空间不大。&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
&lt;br /&gt;
结果如下：&lt;br /&gt;
|                  |   BJYD  |   JS2h  |ShaanXi2h| ShanXi2h|huaweiFuCe|UnKnown2h|&lt;br /&gt;
| nnet1 1400h MPE  |  22.49  |  19.81  |  19.63  |  21.90  |  16.72   |  22.00  |&lt;br /&gt;
| nnet1 4200h xEnt |  26.89  |  19.90  |  25.43  |  26.90  |  16.15   |  24.13  |&lt;br /&gt;
| nnet1 4200h MPE  |  24.53  |  18.39  |  22.82  |  23.97  |  14.22   |  21.35  |&lt;br /&gt;
&lt;br /&gt;
8k:&lt;br /&gt;
                                              huaweiFuCe&lt;br /&gt;
 nnet3_xEnt 7*2048+8393   :          14.61&lt;br /&gt;
 &lt;br /&gt;
 chain 7*2048+6558 200.mdl:          17.83&lt;br /&gt;
 chain             400.mdl:          17.09&lt;br /&gt;
 chain             600.mdl:          18.13&lt;br /&gt;
 chain             800.mdl:          19.05&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
在A01辽宁移动测试集上的实验结果：&lt;br /&gt;
dnn模型（mpe增量训练后）：                          22.39&lt;br /&gt;
华为信道模型：                                      20.26&lt;br /&gt;
用辽宁移动数据在华为信道模型上做增量（6 mdl）：     18.16&lt;br /&gt;
用辽宁移动数据在华为信道模型上做增量（16 mdl）：    17.85&lt;br /&gt;
&lt;br /&gt;
平安提高1个点；客户测试集提升3个点；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
  * 10000h-chain 5*400+800 has been training.&lt;br /&gt;
  * Dark-knowledge training scripts ready&lt;br /&gt;
&lt;br /&gt;
16k 嵌入式模型最新结果如下：&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
             | nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE |   chain   |&lt;br /&gt;
test_8000ju  |    16.12   |   11.31   |   14.89    |   12.77   |   11.74   |&lt;br /&gt;
test_10000ju |    28.83   |   23.82   |   27.43    |   25.05   |   22.35   |&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
LM = 1e-5, 1e-9 biglm, beam = 13&lt;br /&gt;
&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
                    | nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE |   chain   |&lt;br /&gt;
test_8000ju   |    16.12       |   11.31        |   14.89       |   12.77        |   11.10   |&lt;br /&gt;
test_10000ju |    28.83       |   23.82        |   27.43       |   25.05        |   21.33   |&lt;br /&gt;
-------------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
前4个模型结构是4*600+800，chain模型结构是5*400+800。&lt;br /&gt;
与nnet1_MPE相比，chain模型在8000ju上稍差，但在10000句上已经明显超过了。&lt;br /&gt;
目前chain模型训练还没结束，10000h数据大约过了2遍，不到总进度的1/3，但估计再往后的提升不会太显著了。&lt;br /&gt;
&lt;br /&gt;
MPE没有做完；&lt;br /&gt;
&lt;br /&gt;
TDNN+CTC     10000小时16K&lt;br /&gt;
8K5000小时Chain&lt;br /&gt;
16K10000小时Chain&lt;br /&gt;
&lt;br /&gt;
TDDN -&amp;gt; Context -&amp;gt; 类CTC&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
如果比较如下结果，似乎chain的结果还好，毕竟output少了一半。&lt;br /&gt;
&lt;br /&gt;
10000H 2048*7_12000 xEnt(965.mdl  )      :  9.20             17.60&lt;br /&gt;
10000H 2048*7_6565 chain (2700.mdl)      :  8.90             17.51&lt;br /&gt;
&lt;br /&gt;
然而，因为chain的objective中是有区分性信息的，导致这一对比不是很合理。需要等MPE出来结果再看。&lt;br /&gt;
&lt;br /&gt;
Chain 包含如下结构：             single state + MMI&lt;br /&gt;
我们现在的triphone模型包含如下结构： 3 states + MPE&lt;br /&gt;
&lt;br /&gt;
这意味着:&lt;br /&gt;
（1）Chain output 可以比较少 &lt;br /&gt;
（2）Chain+MPE可能提高不很明显 &lt;br /&gt;
（3） Chain缺少模型状态的精细结构，这些精细结构在大数据大模型时可能是有用的。&lt;br /&gt;
&lt;br /&gt;
所以这里面有个权衡，对于上下文相关建模而言，在输出一定的前提下，是牺牲state来换取更多上下文建模(Chain)，还是牺牲一些上下文来描述精细结构 (triphone)。从现在的结果看，似乎是在小模型时，前者重要，而当输出可以很大时，再加入phone context可能已经不重要了，这时state的精细结构就有意义。 这似乎可以得到结论，当我们有足够的数据和足够的计算资源的话，用triphone还是有意义。&lt;br /&gt;
&lt;br /&gt;
之所以出现上面的问题，在于梦原用的Chain是基于TDNN，即用长的context来得到state condition，或者说，NN需要经过一系列网络从context里infer出state。这一方法看起来并不能特别好地描述信号的动态特性，因为对信号的发展过程缺少记忆性。这一记忆性在HMM里信靠状态转移矩阵进行累积，在LSTM里利用recurrent connection进行累积。 这是为什么TDNN离开state，效果不明显的原因。&lt;br /&gt;
&lt;br /&gt;
如果要想较大结构里描述精细结构，或者TDNN+ HMM state (triphone系统)，或者LSTM + CD phone。后者用LSTM来代替HMM,即end-to-end training。传统CTC用的是这一结构。&lt;br /&gt;
&lt;br /&gt;
所以在我看来， LSTM + CD phone应该是最理想的结构，LSTM取代HMM的离散状态成为连续状态。如果能用Chain的objective，则应该足够好了。这就是LSTM的Chain model.&lt;br /&gt;
&lt;br /&gt;
可以总结如下：&lt;br /&gt;
&lt;br /&gt;
(1) 训练中在模型输出一定时，优先描述context，再描述state。在模型较大时，state必须描述。&lt;br /&gt;
(2) state描述可以用HMM，也可以用RNN(LSTM)，前者简单，后者精确。&lt;br /&gt;
(3) 当用LSTM描述状态时，网络输出不必考虑state。&lt;br /&gt;
(4) 训练时需要考虑alignment不确定性问题，CTC解决此问题。&lt;br /&gt;
(5) 训练时需要考虑训练目标和评价指标(WER)匹配，MMI/MPE解决此问题。&lt;br /&gt;
(6) 可以在训练时考虑CTC+MPE/MMI。可以逐步加（一般方法），可能会有问题，因为MPE又遇到不确定性，可以同时加。小汤说Chain是后者，我需要再确认。&lt;br /&gt;
(7) TDNN增加上下的context，有利于更多信息加入，部分解决state或context dependent的问题，但和LSTM/MPE/CTC等并不冲突，也没什么直接关系。&lt;br /&gt;
(8) TDNN + CD state 在大数据下看起来是最容易训练的方法，即是我们的state-of-the-art系统。&lt;br /&gt;
&lt;br /&gt;
建议如下：&lt;br /&gt;
&lt;br /&gt;
(1) 现在Chain model在大数据上遇到的瓶颈看起来是用的TDNN前端。应该改用LSTM前端以描述状态。&lt;br /&gt;
(2) LSTM对特征context不足，应结合TDNN&lt;br /&gt;
(3) LSTM不必特别多层，也不必所有gate都用上，只要能描述状态变化即可。&lt;br /&gt;
(4) 倾向构造这样的结构，底层是TDNN，高层是LSTM，LSTM只有一层即可，同时尽可能简化。&lt;br /&gt;
(5) TDNN + state + Chain objective或许会比TDNN+state后接MPE有所提高。或者，一个类似的CTC+MPE objective function. &lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
新松：&lt;br /&gt;
Online&lt;br /&gt;
领域相关&lt;br /&gt;
基于字的通用语言模型：背景模型 地图不要，对话要&lt;br /&gt;
巨大的通用LM&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
*加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
:* 新词加重及添加&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
&lt;br /&gt;
===End-To-End/CTC===&lt;br /&gt;
Kaldi-nnet1, Kaldi-CTC, Kaldi-Chain and Eesen on WSJ. If GPU Parallel, then on grid-12 and grid-13.&lt;br /&gt;
mpe-2 means method that considering Transition instead of CctcTransition when mpe, while&lt;br /&gt;
mpe-1 means method that considering CctcTransition.&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
          model                                                        %WER (test_eval92)    %WER (after MPE)&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
kaldi/nnet1/dnn_2048_4(cd-dnn-hmm)                                     4.18&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15                                       8.01&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter1                         7.78&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter2                       __7.73__&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Test CTC-mpe (considering CctcTransition) on aurora4.&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
model                                               %WER        learning rate&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15                    13.86&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter1          12.70       0.0002&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter2          12.28&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter3          12.43&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter4          12.34&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
CTC MPE上已成功。&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）  FreeTalk&lt;br /&gt;
90小时的（CER27.5%）质检&lt;br /&gt;
之前测试集有问题&lt;br /&gt;
字面和英文加入，测试集有，训练现在没有；&lt;br /&gt;
粤语只训练最后一层；90小时单独训练模型的最后一层加到1400的最后一层；&lt;br /&gt;
LM差的比较远；&lt;br /&gt;
英文单词还没有加（英文的标音：用粤语的音素标）；&lt;br /&gt;
粤英文的模型，需要训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
8个Phone和1个Tele的录音模型已训练完；&lt;br /&gt;
跨信道，阈值不一致；&lt;br /&gt;
需要解决跨信道的识别问题；&lt;br /&gt;
&lt;br /&gt;
手机和固定电话，需要分开测试；&lt;br /&gt;
ubm256，需要加大；&lt;br /&gt;
组织一下数据，跑D-vector实验；&lt;br /&gt;
&lt;br /&gt;
测试集，真实场景的&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status</id>
		<title>Sinovoice-Weekly-status</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status"/>
				<updated>2016-02-18T05:02:01Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Sinovoice-2013-12-24|2013-12-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-06|2014-01-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-13|2014-01-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-20|2014-01-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-12-10|2014-02-10]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-17|2014-02-17]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-25|2014-02-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-04|2014-03-04]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-11|2014-03-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-18|2014-03-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-25|2014-03-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-01|2014-04-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-08|2014-04-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-15|2014-04-15]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-22|2014-04-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-18|2015-08-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-25|2015-08-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-01|2015-09-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-08|2015-09-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-18|2015-09-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-22|2015-09-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-13|2015-10-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-21|2015-10-21]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-28|2015-10-28]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-05|2015-11-05]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-11|2015-11-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-18|2015-11-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-25|2015-11-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-02|2015-12-02]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-09|2015-12-09]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-16|2015-12-16]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-23|2015-12-23]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-30|2015-12-30]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-06|2016-1-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-13|2016-1-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-20|2016-1-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-27|2016-1-27]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-2-2|2016-2-2]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-2-18|2016-2-18]]&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-2-2</id>
		<title>Sinovoice-2016-2-2</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-2-2"/>
				<updated>2016-02-02T07:40:04Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;'''警告：'''“Sinovoice-2016-2-2”指向这里，但您没有足够的权限来访问它。&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-2-2</id>
		<title>Sinovoice-2016-2-2</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-2-2"/>
				<updated>2016-02-02T06:47:52Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：以“==数据==  *16K 灵云数据  10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中，通过ASR打分，取出中间的400...”为内容创建页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;'''警告：'''“Sinovoice-2016-2-2”指向这里，但您没有足够的权限来访问它。&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status</id>
		<title>Sinovoice-Weekly-status</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status"/>
				<updated>2016-02-02T06:47:20Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Sinovoice-2013-12-24|2013-12-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-06|2014-01-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-13|2014-01-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-20|2014-01-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-12-10|2014-02-10]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-17|2014-02-17]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-25|2014-02-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-04|2014-03-04]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-11|2014-03-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-18|2014-03-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-25|2014-03-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-01|2014-04-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-08|2014-04-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-15|2014-04-15]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-22|2014-04-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-18|2015-08-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-25|2015-08-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-01|2015-09-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-08|2015-09-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-18|2015-09-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-22|2015-09-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-13|2015-10-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-21|2015-10-21]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-28|2015-10-28]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-05|2015-11-05]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-11|2015-11-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-18|2015-11-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-25|2015-11-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-02|2015-12-02]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-09|2015-12-09]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-16|2015-12-16]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-23|2015-12-23]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-30|2015-12-30]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-06|2016-1-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-13|2016-1-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-20|2016-1-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-27|2016-1-27]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-2-2|2016-2-2]]&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-1-20</id>
		<title>Sinovoice-2016-1-20</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-1-20"/>
				<updated>2016-01-20T07:27:57Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：以“==数据==  *16K 灵云数据  10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中，通过ASR打分，取出中间的400...”为内容创建页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
16K标注，灵云，180小时，收集验收；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   训练第七轮；cer9.20； 900mdl/3500&lt;br /&gt;
&lt;br /&gt;
   拷贝一份，启动8个job；&lt;br /&gt;
   原来的继续；进行MPE；&lt;br /&gt;
   生成lattice，还没有开始跑；&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
&lt;br /&gt;
生成lattice&lt;br /&gt;
宕机，硬盘已恢复，拷贝数据；部分lattice跑模型；&lt;br /&gt;
MPE使用部分数据，或领域数据；&lt;br /&gt;
&lt;br /&gt;
 6000H 600*4_800  xEnt                    :  15.16            28.03&lt;br /&gt;
 6000H 600*4_800  mpe                     :  12.09            23.51&lt;br /&gt;
 6776H 1200*4_10000 mpe                   :  9.48             18.07&lt;br /&gt;
 &lt;br /&gt;
 10000H 600*4_800 xEnt（迭代21轮）        :  15.91&lt;br /&gt;
 10000H 600*4_800 xEnt（迭代完成）        :  15.56            26.71&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代1.7轮)      :  10.12&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代2.6轮)      :  9.73&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代3.8轮)      :  9.51&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代5.1轮)      :  9.53&lt;br /&gt;
 10000H 2048*7_12000 xEnt(迭代6.0轮)      :  9.41             17.75&lt;br /&gt;
 10000H 2048*7_12000 xEnt(700.mdl  )      :  9.35             17.71&lt;br /&gt;
 10000H 2048*7_12000 xEnt(800.mdl  )      :  9.27             17.57&lt;br /&gt;
 10000H 2048*7_12000 xEnt(900.mdl  )      :  9.20             17.51&lt;br /&gt;
 10000H 2048*7_12000 xEnt(965.mdl  )      :  9.20             17.60&lt;br /&gt;
 10000H 2048*7_12000 200H mpe(2.mdl  )    :  8.80             15.99&lt;br /&gt;
 10000H 2048*7_12000 200H mpe(8.mdl  )    :  8.71             15.91&lt;br /&gt;
&lt;br /&gt;
  200小时的MPE结果，1000小时的MPE，在生成lattice；&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
   MPE今天跑起来一个；用Context有问题的脚本先跑起来；&lt;br /&gt;
&lt;br /&gt;
   生成lattice已完成；&lt;br /&gt;
   aliment，MPE中间会输出模型，测试识别率；6台机器；&lt;br /&gt;
   4天一个Model；&lt;br /&gt;
&lt;br /&gt;
   2e-5，发散；比基本的高2个点；&lt;br /&gt;
   2e-6，重新训练，没有明显的改进；&lt;br /&gt;
   可以递减，保证训练最好的出来。要该模型中的；&lt;br /&gt;
&lt;br /&gt;
   使用最好的模型，测试一下平安的用户测试；&lt;br /&gt;
&lt;br /&gt;
    5000小时，所有数据的MPE的模型作为通用模型，再进行每个项目的迭代MPE；&lt;br /&gt;
    mpe(4.mdl)为基础，使用2e5参数，进行迭代；&lt;br /&gt;
    A01（辽宁移动）和平安的模型；&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
   &lt;br /&gt;
   需要使用Darknowledge或CTC&lt;br /&gt;
   需要一个大模型的，7x2048&lt;br /&gt;
       TDNN(原始CNN + Context)，新造一个Tree，1000leaf（output），语料10000小时；CHAIN，一个phone一个节点；100和1400的训练集上效果都还行；&lt;br /&gt;
       实验阶段，隐藏层大一些；重新造 Train&lt;br /&gt;
       修改Decision Tree  3000&lt;br /&gt;
       一周会有一个中间结果，但不一定能跑完；&lt;br /&gt;
&lt;br /&gt;
   解码效率：&lt;br /&gt;
   NNet3的产品化&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
*加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
   Path加重，修改fst；&lt;br /&gt;
      改了一个脚本，但是还有问题；g.fst&lt;br /&gt;
   测试加重“xx导演的巩俐演的”；&lt;br /&gt;
   Word Vector：分堆 加词表的15万；&lt;br /&gt;
   手动找到修改，有效果，但是脚本没有调通；&lt;br /&gt;
   &lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
   人名识别不好，lm，人名的单字path加重？？？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。&lt;br /&gt;
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。&lt;br /&gt;
小汤，目前已超过DNN，MPE：NET3已跑起来。&lt;br /&gt;
LSTM&lt;br /&gt;
&lt;br /&gt;
一个Lattice正常&lt;br /&gt;
一个糟糕，&lt;br /&gt;
&lt;br /&gt;
第一个方案:&lt;br /&gt;
   发散变弱；&lt;br /&gt;
第二个方案:&lt;br /&gt;
    CTC TransModel &lt;br /&gt;
&lt;br /&gt;
CTC的MPE已解决；&lt;br /&gt;
Kaldi-nnet1, Kaldi-CTC, Kaldi-Chain and Eesen on WSJ. If GPU Parallel, then on grid-12 and grid-13.&lt;br /&gt;
mpe-2 means method that considering Transition instead of CctcTransition when mpe, while&lt;br /&gt;
mpe-1 means method that considering CctcTransition.&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
          model                                                        %WER (test_eval92)    %WER (after MPE)&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
kaldi/nnet1/dnn_2048_4(cd-dnn-hmm)                                     4.18&lt;br /&gt;
---------------------------------------------------------------------------------&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15                                       8.01&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter1                         7.78&lt;br /&gt;
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter2                       __7.73__&lt;br /&gt;
&lt;br /&gt;
训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）  FreeTalk&lt;br /&gt;
90小时的（CER27.5%）质检&lt;br /&gt;
之前测试集有问题&lt;br /&gt;
字面和英文加入，测试集有，训练现在没有；&lt;br /&gt;
粤语只训练最后一层；90小时单独训练模型的最后一层加到1400的最后一层；&lt;br /&gt;
LM差的比较远；&lt;br /&gt;
英文单词还没有加（英文的标音：用粤语的音素标）；&lt;br /&gt;
粤英文的模型，需要训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
8个Phone和1个Tele的录音模型已训练完；&lt;br /&gt;
跨信道，阈值不一致；&lt;br /&gt;
需要解决跨信道的识别问题；&lt;br /&gt;
&lt;br /&gt;
手机和固定电话，需要分开测试；&lt;br /&gt;
ubm256，需要加大；&lt;br /&gt;
组织一下数据，跑D-vector实验；&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status</id>
		<title>Sinovoice-Weekly-status</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status"/>
				<updated>2016-01-20T05:52:51Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Sinovoice-2013-12-24|2013-12-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-06|2014-01-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-13|2014-01-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-20|2014-01-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-12-10|2014-02-10]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-17|2014-02-17]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-25|2014-02-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-04|2014-03-04]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-11|2014-03-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-18|2014-03-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-25|2014-03-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-01|2014-04-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-08|2014-04-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-15|2014-04-15]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-22|2014-04-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-18|2015-08-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-25|2015-08-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-01|2015-09-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-08|2015-09-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-18|2015-09-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-22|2015-09-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-13|2015-10-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-21|2015-10-21]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-28|2015-10-28]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-05|2015-11-05]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-11|2015-11-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-18|2015-11-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-25|2015-11-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-02|2015-12-02]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-09|2015-12-09]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-16|2015-12-16]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-23|2015-12-23]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-30|2015-12-30]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-06|2016-1-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-13|2016-1-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-20|2016-1-20]]&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-1-13</id>
		<title>Sinovoice-2016-1-13</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-1-13"/>
				<updated>2016-01-13T06:30:10Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
16K标注，灵云，180小时，收集验收；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   训练第七轮；cer9.20； 900mdl/3500&lt;br /&gt;
&lt;br /&gt;
   拷贝一份，启动8个job；&lt;br /&gt;
   原来的继续；进行MPE；&lt;br /&gt;
   生成lattice，还没有开始跑；&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
&lt;br /&gt;
生成lattice&lt;br /&gt;
宕机，硬盘已恢复，拷贝数据；部分lattice跑模型；&lt;br /&gt;
MPE使用部分数据，或领域数据；&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
   MPE今天跑起来一个；用Context有问题的脚本先跑起来；&lt;br /&gt;
&lt;br /&gt;
   生成lattice已完成；&lt;br /&gt;
   aliment，MPE中间会输出模型，测试识别率；6台机器；&lt;br /&gt;
   4天一个Model；&lt;br /&gt;
&lt;br /&gt;
   2e-5，发散；比基本的高2个点；&lt;br /&gt;
   2e-6，重新训练；&lt;br /&gt;
   可以递减，保证训练最好的出来。要该模型中的；&lt;br /&gt;
&lt;br /&gt;
   使用最好的模型，测试一下平安的用户测试；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
   &lt;br /&gt;
   小模型测试，cer20+；&lt;br /&gt;
   bigLM的生成还有问题！&lt;br /&gt;
&lt;br /&gt;
   深度的影响更大，宽度相对较小；&lt;br /&gt;
   sigmod，改为rectifier&lt;br /&gt;
&lt;br /&gt;
   MPE Contect(6)跑一个；xEnt Contect(-3 -2 -1 0 1 2 3)+MPE；&lt;br /&gt;
   Darkknowledge一个；4*600*800 Nnet3的训练脚本；&lt;br /&gt;
   5*600*800加深一层跑一个；&lt;br /&gt;
&lt;br /&gt;
   生成lattice，训练MPE，转格式专用空间太大，修改脚本，降低存储空间；&lt;br /&gt;
   变差：从27变为30；&lt;br /&gt;
   分100分，内部random；&lt;br /&gt;
&lt;br /&gt;
   MPE重新训练：&lt;br /&gt;
   global shuffle：重新分组；&lt;br /&gt;
   external lattice，加速，为MPE准备&lt;br /&gt;
   每天晚上之前跑起来；&lt;br /&gt;
&lt;br /&gt;
   需要使用Darknowledge或CTC&lt;br /&gt;
   需要一个大模型的，7x2048&lt;br /&gt;
&lt;br /&gt;
   解码效率：&lt;br /&gt;
   NNet3的产品化&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
*加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
   Path加重，修改fst；&lt;br /&gt;
      改了一个脚本，但是还有问题；g.fst&lt;br /&gt;
   测试加重“xx导演的巩俐演的”；&lt;br /&gt;
   Word Vector：分堆 加词表的15万；&lt;br /&gt;
   &lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
   人名识别不好，lm，人名的单字path加重？？？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。&lt;br /&gt;
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。&lt;br /&gt;
小汤，目前已超过DNN，MPE：NET3已跑起来。&lt;br /&gt;
LSTM&lt;br /&gt;
&lt;br /&gt;
一个Lattice正常&lt;br /&gt;
一个糟糕，&lt;br /&gt;
&lt;br /&gt;
第一个方案:&lt;br /&gt;
   发散变弱；&lt;br /&gt;
第二个方案:&lt;br /&gt;
    CTC TransModel &lt;br /&gt;
&lt;br /&gt;
CTC的MPE还在解决中；&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）  FreeTalk&lt;br /&gt;
90小时的（CER27.5%）质检&lt;br /&gt;
之前测试集有问题&lt;br /&gt;
字面和英文加入，测试集有，训练现在没有；&lt;br /&gt;
粤语只训练最后一层；90小时单独训练模型的最后一层加到1400的最后一层；&lt;br /&gt;
LM差的比较远；&lt;br /&gt;
英文单词还没有加（英文的标音：用粤语的音素标）；&lt;br /&gt;
粤英文的模型，需要训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
8个Phone和1个Tele的录音模型已训练完，尚未测试完成；&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
测试集                    iv200_digital_8p1t_vox_8k_new_model       iv200_digital_mobile_tele_vox_8k&lt;br /&gt;
20_people_same_device1       1.28205%, at threshold 0.541794            1.28205%, at threshold 0.468932&lt;br /&gt;
20_people_same_device2       1.25%, at threshold 0.564912                0%, at threshold 0.561153&lt;br /&gt;
20_people_same_device3       2.5%, at threshold 0.562019                 1.25%, at threshold 0.565247&lt;br /&gt;
20_people_same_device4       1.25%, at threshold 0.632257                1.25%, at threshold 0.67539&lt;br /&gt;
20_people_diff_device        11.5044%, at threshold 0.412102             15.0442%, at threshold 0.191909&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
手机和固定电话，需要分开测试；&lt;br /&gt;
ubm256，需要加大；&lt;br /&gt;
组织一下数据，跑D-vector实验；&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-1-13</id>
		<title>Sinovoice-2016-1-13</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2016-1-13"/>
				<updated>2016-01-13T05:44:48Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：以“==数据== *第三季度目标 ===语音数据===  *16K 灵云数据  10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中...”为内容创建页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
16K标注，灵云，180小时，收集验收；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   训练第七轮；cer9.20； 900mdl/3500&lt;br /&gt;
&lt;br /&gt;
   拷贝一份，启动8个job；&lt;br /&gt;
   原来的继续；进行MPE；&lt;br /&gt;
   生成lattice，还没有开始跑；&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
&lt;br /&gt;
生成lattice&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
   MPE今天跑起来一个；用Context有问题的脚本先跑起来；&lt;br /&gt;
&lt;br /&gt;
   生成lattice已完成；&lt;br /&gt;
   aliment，MPE中间会输出模型，测试识别率；6台机器；&lt;br /&gt;
   4天一个Model；&lt;br /&gt;
&lt;br /&gt;
MPE训练&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
  AM / test       |   test_JS   |  test_Shanxi  |  test_Shaanxi  |  test_Unknown  |  test_BJYD  |  test_huaweiFuCe  |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
Baseline_xEnt     |    19.90    |     26.90     |      25.43     |      24.13     |    26.89    |       16.15       |&lt;br /&gt;
Baseline_MPE      |    18.39    |     23.97     |      22.82     |      21.35     |    24.53    |       14.22       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
nnet3_4*1200      |    22.44    |     28.31     |      26.59     |      25.10     |    26.57    |       18.93       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
nnet3_7*2048      |    20.06    |     24.86     |      23.08     |      21.33     |    22.40    |       14.61       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
nnet3_7*2048_mpe1 |    16.84    |     21.68     |      20.43     |      20.33     |    21.85    |       13.37       |&lt;br /&gt;
nnet3_7*2048_mpe5 |    16.67    |     21.65     |      20.52     |      19.94     |    21.77    |       12.66       |&lt;br /&gt;
nnet3_7*2048_mpe12|    17.75    |     23.79     |      22.06     |      20.18     |    25.16    |       12.77       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
   &lt;br /&gt;
   小模型测试，cer20+；&lt;br /&gt;
   bigLM的生成还有问题！&lt;br /&gt;
&lt;br /&gt;
   深度的影响更大，宽度相对较小；&lt;br /&gt;
   sigmod，改为rectifier&lt;br /&gt;
&lt;br /&gt;
   MPE Contect(6)跑一个；xEnt Contect(-3 -2 -1 0 1 2 3)+MPE；&lt;br /&gt;
   Darkknowledge一个；4*600*800 Nnet3的训练脚本；&lt;br /&gt;
   5*600*800加深一层跑一个；&lt;br /&gt;
&lt;br /&gt;
   生成lattice，训练MPE，转格式专用空间太大，修改脚本，降低存储空间；&lt;br /&gt;
   变差：从27变为30；&lt;br /&gt;
   分100分，内部random；&lt;br /&gt;
&lt;br /&gt;
   MPE重新训练：&lt;br /&gt;
   global shuffle：重新分组；&lt;br /&gt;
   external lattice，加速，为MPE准备&lt;br /&gt;
   每天晚上之前跑起来；&lt;br /&gt;
&lt;br /&gt;
   解码效率：&lt;br /&gt;
   NNet3的产品化&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
*加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
   Path加重，修改fst；&lt;br /&gt;
   测试加重“xx导演的巩俐演的”；&lt;br /&gt;
   Word Vector：分堆 加词表的15万；&lt;br /&gt;
   &lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
   人名识别不好，lm，人名的单字path加重？？？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。&lt;br /&gt;
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。&lt;br /&gt;
小汤，目前已超过DNN，MPE：NET3已跑起来。&lt;br /&gt;
LSTM&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）  FreeTalk&lt;br /&gt;
90小时的（CER27.5%）质检&lt;br /&gt;
之前测试集有问题&lt;br /&gt;
字面和英文加入，测试集有，训练现在没有；&lt;br /&gt;
粤语只训练最后一层；90小时单独训练模型的最后一层加到1400的最后一层；&lt;br /&gt;
LM差的比较远；&lt;br /&gt;
英文单词还没有加（英文的标音：用粤语的音素标）；&lt;br /&gt;
粤英文的模型，需要训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
8个Phone和1个Tele的录音模型已训练完，尚未测试完成；&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
测试集                    iv200_digital_8p1t_vox_8k_new_model       iv200_digital_mobile_tele_vox_8k&lt;br /&gt;
20_people_same_device1       1.28205%, at threshold 0.541794            1.28205%, at threshold 0.468932&lt;br /&gt;
20_people_same_device2       1.25%, at threshold 0.564912                0%, at threshold 0.561153&lt;br /&gt;
20_people_same_device3       2.5%, at threshold 0.562019                 1.25%, at threshold 0.565247&lt;br /&gt;
20_people_same_device4       1.25%, at threshold 0.632257                1.25%, at threshold 0.67539&lt;br /&gt;
20_people_diff_device        11.5044%, at threshold 0.412102             15.0442%, at threshold 0.191909&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
手机和固定电话，需要分开测试；&lt;br /&gt;
ubm256，需要加大；&lt;br /&gt;
组织一下数据，跑D-vector实验；&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status</id>
		<title>Sinovoice-Weekly-status</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status"/>
				<updated>2016-01-13T05:44:18Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Sinovoice-2013-12-24|2013-12-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-06|2014-01-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-13|2014-01-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-20|2014-01-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-12-10|2014-02-10]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-17|2014-02-17]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-25|2014-02-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-04|2014-03-04]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-11|2014-03-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-18|2014-03-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-25|2014-03-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-01|2014-04-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-08|2014-04-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-15|2014-04-15]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-22|2014-04-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-18|2015-08-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-25|2015-08-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-01|2015-09-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-08|2015-09-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-18|2015-09-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-22|2015-09-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-13|2015-10-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-21|2015-10-21]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-28|2015-10-28]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-05|2015-11-05]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-11|2015-11-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-18|2015-11-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-25|2015-11-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-02|2015-12-02]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-09|2015-12-09]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-16|2015-12-16]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-23|2015-12-23]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-30|2015-12-30]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-06|2016-1-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-13|2016-1-13]]&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status</id>
		<title>Sinovoice-Weekly-status</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status"/>
				<updated>2016-01-13T05:43:51Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Sinovoice-2013-12-24|2013-12-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-06|2014-01-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-13|2014-01-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-20|2014-01-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-12-10|2014-02-10]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-17|2014-02-17]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-25|2014-02-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-04|2014-03-04]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-11|2014-03-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-18|2014-03-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-25|2014-03-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-01|2014-04-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-08|2014-04-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-15|2014-04-15]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-22|2014-04-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-18|2015-08-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-25|2015-08-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-01|2015-09-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-08|2015-09-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-18|2015-09-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-22|2015-09-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-13|2015-10-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-21|2015-10-21]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-28|2015-10-28]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-05|2015-11-05]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-11|2015-11-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-18|2015-11-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-25|2015-11-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-02|2015-12-02]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-09|2015-12-09]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-16|2015-12-16]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-23|2015-12-23]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-30|2015-12-30]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-06|2015-1-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2016-1-13|2015-1-13]]&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-30</id>
		<title>Sinovoice-2015-12-30</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-30"/>
				<updated>2015-12-30T06:37:04Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
16K标注，灵云，180小时，收集验收；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   训练第七轮；cer9.20； 900mdl/3500&lt;br /&gt;
&lt;br /&gt;
   拷贝一份，启动8个job；&lt;br /&gt;
   原来的继续；进行MPE；&lt;br /&gt;
   生成lattice，还没有开始跑；&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
   Context的窗大(-10,+10)的时候不收敛。&lt;br /&gt;
   小数据过拟合，大数据再看下结果；&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
   MPE今天跑起来一个；用Context有问题的脚本先跑起来；&lt;br /&gt;
&lt;br /&gt;
   生成lattice已完成；&lt;br /&gt;
   aliment，MPE中间会输出模型，测试识别率；6台机器；&lt;br /&gt;
   4天一个Model；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
   &lt;br /&gt;
   小模型测试，cer20+；&lt;br /&gt;
   bigLM的生成还有问题！&lt;br /&gt;
&lt;br /&gt;
   深度的影响更大，宽度相对较小；&lt;br /&gt;
   sigmod，改为rectifier&lt;br /&gt;
&lt;br /&gt;
   MPE Contect(6)跑一个；xEnt Contect(-3 -2 -1 0 1 2 3)+MPE；&lt;br /&gt;
   Darkknowledge一个；4*600*800 Nnet3的训练脚本；&lt;br /&gt;
   5*600*800加深一层跑一个；&lt;br /&gt;
&lt;br /&gt;
   生成lattice，训练MPE，转格式专用空间太大，修改脚本，降低存储空间；&lt;br /&gt;
   变差：从27变为30；&lt;br /&gt;
   分100分，内部random；&lt;br /&gt;
&lt;br /&gt;
   MPE重新训练：&lt;br /&gt;
   global shuffle：重新分组；&lt;br /&gt;
   external lattice，加速，为MPE准备&lt;br /&gt;
   每天晚上之前跑起来；&lt;br /&gt;
&lt;br /&gt;
   解码效率：&lt;br /&gt;
   NNet3的产品化&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
*加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
   Path加重，修改fst；&lt;br /&gt;
   测试加重“xx导演的巩俐演的”；&lt;br /&gt;
   Word Vector：分堆 加词表的15万；&lt;br /&gt;
   &lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
   人名识别不好，lm，人名的单字path加重？？？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。&lt;br /&gt;
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。&lt;br /&gt;
小汤，目前已超过DNN，MPE：NET3已跑起来。&lt;br /&gt;
LSTM&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）  FreeTalk&lt;br /&gt;
90小时的（CER27.5%）质检&lt;br /&gt;
之前测试集有问题&lt;br /&gt;
字面和英文加入，测试集有，训练现在没有；&lt;br /&gt;
粤语只训练最后一层；90小时单独训练模型的最后一层加到1400的最后一层；&lt;br /&gt;
LM差的比较远；&lt;br /&gt;
英文单词还没有加（英文的标音：用粤语的音素标）；&lt;br /&gt;
粤英文的模型，需要训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
8个Phone和1个Tele的录音模型已训练完，尚未测试完成；&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
测试集                    iv200_digital_8p1t_vox_8k_new_model       iv200_digital_mobile_tele_vox_8k&lt;br /&gt;
20_people_same_device1       1.28205%, at threshold 0.541794            1.28205%, at threshold 0.468932&lt;br /&gt;
20_people_same_device2       1.25%, at threshold 0.564912                0%, at threshold 0.561153&lt;br /&gt;
20_people_same_device3       2.5%, at threshold 0.562019                 1.25%, at threshold 0.565247&lt;br /&gt;
20_people_same_device4       1.25%, at threshold 0.632257                1.25%, at threshold 0.67539&lt;br /&gt;
20_people_diff_device        11.5044%, at threshold 0.412102             15.0442%, at threshold 0.191909&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
手机和固定电话，需要分开测试；&lt;br /&gt;
ubm256，需要加大；&lt;br /&gt;
组织一下数据，跑D-vector实验；&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-30</id>
		<title>Sinovoice-2015-12-30</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-30"/>
				<updated>2015-12-30T05:06:18Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
已完成80小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   训练第七轮；cer9.20； 900mdl/3500&lt;br /&gt;
&lt;br /&gt;
   拷贝一份，启动8个job；&lt;br /&gt;
   原来的继续；进行MPE；&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
   Context的窗大(-10,+10)的时候不收敛。&lt;br /&gt;
   小数据过拟合，大数据再看下结果；&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
   MPE今天跑起来一个；用Context有问题的脚本先跑起来；&lt;br /&gt;
&lt;br /&gt;
   生成lattice；&lt;br /&gt;
   MPE中间会输出模型，测试识别率；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
   &lt;br /&gt;
   小模型测试，cer20+；&lt;br /&gt;
   bigLM的生成还有问题！&lt;br /&gt;
&lt;br /&gt;
   生成结果有乱码：已解决，依赖的软件包的编译问题。&lt;br /&gt;
   识别率不稳定，变化比较大：测试一万句的测试集；&lt;br /&gt;
   将测试集分成4块，识别率基本一致；&lt;br /&gt;
   句子越长，识别率越高；&lt;br /&gt;
&lt;br /&gt;
   深度的影响更大，宽度相对较小；&lt;br /&gt;
   sigmod，改为rectifier&lt;br /&gt;
&lt;br /&gt;
   MPE Contect(6)跑一个；xEnt Contect(-3 -2 -1 0 1 2 3)+MPE；&lt;br /&gt;
   Darkknowledge一个；4*600*800 Nnet3的训练脚本；&lt;br /&gt;
   5*600*800加深一层跑一个；&lt;br /&gt;
&lt;br /&gt;
   生成lattice，训练MPE，转格式专用空间太大，修改脚本，降低存储空间；&lt;br /&gt;
&lt;br /&gt;
   解码效率：&lt;br /&gt;
   NNet3的产品化&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
      测试加重“xx导演的巩俐演的”待测试。&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。 会训练WordVector，但是没有加入模型。&lt;br /&gt;
    每个词的权重不一样（distance）。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
   人名识别不好，lm，人名的单字path加重？？？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。&lt;br /&gt;
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。&lt;br /&gt;
小汤，目前已超过DNN，还没有加MPE；NET3&lt;br /&gt;
LSTM&lt;br /&gt;
&lt;br /&gt;
8K CTC 4000小时 （8-10天） 梦原&lt;br /&gt;
TDNN，效果不太好；TimeDelayDNN&lt;br /&gt;
&lt;br /&gt;
训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）  FreeTalk&lt;br /&gt;
90小时的（CER27.5%）质检&lt;br /&gt;
之前测试集有问题&lt;br /&gt;
字面和英文加入，测试集有，训练现在没有；&lt;br /&gt;
粤语只训练最后一层；90小时单独训练模型的最后一层加到1400的最后一层；&lt;br /&gt;
LM差的比较远；&lt;br /&gt;
英文单词还没有加（英文的标音：用粤语的音素标）；&lt;br /&gt;
粤英文的模型，需要训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
8个Phone和1个Tele的录音模型已训练完，尚未测试完成；&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
测试集                    iv200_digital_8p1t_vox_8k_new_model       iv200_digital_mobile_tele_vox_8k&lt;br /&gt;
20_people_same_device1       1.28205%, at threshold 0.541794               1.28205%, at threshold 0.468932&lt;br /&gt;
20_people_same_device2       1.25%, at threshold 0.564912                    0%, at threshold 0.561153&lt;br /&gt;
20_people_same_device3       2.5%, at threshold 0.562019                      1.25%, at threshold 0.565247&lt;br /&gt;
20_people_same_device4       1.25%, at threshold 0.632257                    1.25%, at threshold 0.67539&lt;br /&gt;
20_people_diff_device             11.5044%, at threshold 0.412102              15.0442%, at threshold 0.191909&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-30</id>
		<title>Sinovoice-2015-12-30</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-30"/>
				<updated>2015-12-30T05:04:20Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：以“==数据== *第三季度目标 ===语音数据===  *16K 灵云数据  10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中...”为内容创建页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
已完成80小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   训练第七轮；cer9.20； 900mdl/3500&lt;br /&gt;
&lt;br /&gt;
   拷贝一份，启动8个job；&lt;br /&gt;
   原来的继续；进行MPE；&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
   Context的窗大(-10,+10)的时候不收敛。&lt;br /&gt;
   小数据过拟合，大数据再看下结果；&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
   MPE今天跑起来一个；用Context有问题的脚本先跑起来；&lt;br /&gt;
&lt;br /&gt;
   生成lattice；&lt;br /&gt;
   MPE中间会输出模型，测试识别率；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
   &lt;br /&gt;
   小模型测试，cer20+；&lt;br /&gt;
   bigLM的生成还有问题！&lt;br /&gt;
&lt;br /&gt;
   生成结果有乱码：已解决，依赖的软件包的编译问题。&lt;br /&gt;
   识别率不稳定，变化比较大：测试一万句的测试集；&lt;br /&gt;
   将测试集分成4块，识别率基本一致；&lt;br /&gt;
   句子越长，识别率越高；&lt;br /&gt;
&lt;br /&gt;
   深度的影响更大，宽度相对较小；&lt;br /&gt;
   sigmod，改为rectifier&lt;br /&gt;
&lt;br /&gt;
   MPE Contect(6)跑一个；xEnt Contect(-3 -2 -1 0 1 2 3)+MPE；&lt;br /&gt;
   Darkknowledge一个；4*600*800 Nnet3的训练脚本；&lt;br /&gt;
   5*600*800加深一层跑一个；&lt;br /&gt;
&lt;br /&gt;
   生成lattice，训练MPE，转格式专用空间太大，修改脚本，降低存储空间；&lt;br /&gt;
&lt;br /&gt;
   解码效率：&lt;br /&gt;
   NNet3的产品化&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
      测试加重“xx导演的巩俐演的”待测试。&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。 会训练WordVector，但是没有加入模型。&lt;br /&gt;
    每个词的权重不一样（distance）。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
   人名识别不好，lm，人名的单字path加重？？？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。&lt;br /&gt;
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。&lt;br /&gt;
小汤，目前已超过DNN，还没有加MPE；NET3&lt;br /&gt;
LSTM&lt;br /&gt;
&lt;br /&gt;
8K CTC 4000小时 （8-10天） 梦原&lt;br /&gt;
TDNN，效果不太好；TimeDelayDNN&lt;br /&gt;
&lt;br /&gt;
训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）  FreeTalk&lt;br /&gt;
90小时的（CER27.5%）质检&lt;br /&gt;
之前测试集有问题&lt;br /&gt;
字面和英文加入，测试集有，训练现在没有；&lt;br /&gt;
粤语只训练最后一层；90小时单独训练模型的最后一层加到1400的最后一层；&lt;br /&gt;
LM差的比较远；&lt;br /&gt;
英文单词还没有加（英文的标音：用粤语的音素标）；&lt;br /&gt;
粤英文的模型，需要训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
8个Phone和1个Tele的录音模型已训练完，尚未测试完成；&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status</id>
		<title>Sinovoice-Weekly-status</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status"/>
				<updated>2015-12-30T05:03:41Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Sinovoice-2013-12-24|2013-12-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-06|2014-01-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-13|2014-01-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-20|2014-01-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-12-10|2014-02-10]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-17|2014-02-17]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-25|2014-02-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-04|2014-03-04]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-11|2014-03-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-18|2014-03-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-25|2014-03-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-01|2014-04-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-08|2014-04-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-15|2014-04-15]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-22|2014-04-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-18|2015-08-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-25|2015-08-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-01|2015-09-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-08|2015-09-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-18|2015-09-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-22|2015-09-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-13|2015-10-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-21|2015-10-21]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-28|2015-10-28]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-05|2015-11-05]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-11|2015-11-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-18|2015-11-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-25|2015-11-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-02|2015-12-02]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-09|2015-12-09]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-16|2015-12-16]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-23|2015-12-23]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-30|2015-12-30]]&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-23</id>
		<title>Sinovoice-2015-12-23</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-23"/>
				<updated>2015-12-23T05:57:40Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
已完成80小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   训练第七轮；cer9.20； 900mdl/3500&lt;br /&gt;
&lt;br /&gt;
   拷贝一份，启动8个job；&lt;br /&gt;
   原来的继续；进行MPE；&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
   Context的窗大(-10,+10)的时候不收敛。&lt;br /&gt;
   小数据过拟合，大数据再看下结果；&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
   MPE今天跑起来一个；用Context有问题的脚本先跑起来；&lt;br /&gt;
&lt;br /&gt;
   生成lattice；&lt;br /&gt;
   MPE中间会输出模型，测试识别率；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
   &lt;br /&gt;
   小模型测试，cer20+；&lt;br /&gt;
   bigLM的生成还有问题！&lt;br /&gt;
&lt;br /&gt;
   生成结果有乱码：已解决，依赖的软件包的编译问题。&lt;br /&gt;
   识别率不稳定，变化比较大：测试一万句的测试集；&lt;br /&gt;
   将测试集分成4块，识别率基本一致；&lt;br /&gt;
   句子越长，识别率越高；&lt;br /&gt;
&lt;br /&gt;
   深度的影响更大，宽度相对较小；&lt;br /&gt;
   sigmod，改为rectifier&lt;br /&gt;
&lt;br /&gt;
   MPE Contect(6)跑一个；xEnt Contect(-3 -2 -1 0 1 2 3)+MPE；&lt;br /&gt;
   Darkknowledge一个；4*600*800 Nnet3的训练脚本；&lt;br /&gt;
   5*600*800加深一层跑一个；&lt;br /&gt;
&lt;br /&gt;
   生成lattice，训练MPE，转格式专用空间太大，修改脚本，降低存储空间；&lt;br /&gt;
&lt;br /&gt;
   解码效率：&lt;br /&gt;
   NNet3的产品化&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
      测试加重“xx导演的巩俐演的”待测试。&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。 会训练WordVector，但是没有加入模型。&lt;br /&gt;
    每个词的权重不一样（distance）。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
   人名识别不好，lm，人名的单字path加重？？？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。&lt;br /&gt;
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。&lt;br /&gt;
小汤，目前已超过DNN，还没有加MPE；NET3&lt;br /&gt;
LSTM&lt;br /&gt;
&lt;br /&gt;
8K CTC 4000小时 （8-10天） 梦原&lt;br /&gt;
TDNN，效果不太好；TimeDelayDNN&lt;br /&gt;
&lt;br /&gt;
训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）  FreeTalk&lt;br /&gt;
90小时的（CER27.5%）质检&lt;br /&gt;
之前测试集有问题&lt;br /&gt;
字面和英文加入，测试集有，训练现在没有；&lt;br /&gt;
粤语只训练最后一层；90小时单独训练模型的最后一层加到1400的最后一层；&lt;br /&gt;
LM差的比较远；&lt;br /&gt;
英文单词还没有加（英文的标音：用粤语的音素标）；&lt;br /&gt;
粤英文的模型，需要训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
8个Phone和1个Tele的录音模型已训练完，尚未测试完成；&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-23</id>
		<title>Sinovoice-2015-12-23</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-23"/>
				<updated>2015-12-23T05:29:50Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：以“==数据== *第三季度目标 ===语音数据===  *16K 灵云数据  10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中...”为内容创建页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
已完成80小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   训练第七轮；cer9.41； 700/3500&lt;br /&gt;
   拷贝一份，启动8个job；原来的继续；&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
   Context的窗大(-10,+10)的时候不收敛。&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
   MPE今天跑起来一个；用Context有问题的脚本先跑起来；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
   &lt;br /&gt;
   小模型测试，cer20+；&lt;br /&gt;
   bigLM的生成还有问题！&lt;br /&gt;
&lt;br /&gt;
   生成结果有乱码：已解决，依赖的软件包的编译问题。&lt;br /&gt;
   识别率不稳定，变化比较大：测试一万句的测试集；&lt;br /&gt;
   将测试集分成4块，识别率基本一致；&lt;br /&gt;
   句子越长，识别率越高；&lt;br /&gt;
&lt;br /&gt;
   深度的影响更大，宽度相对较小；&lt;br /&gt;
   sigmod，改为rectifier&lt;br /&gt;
&lt;br /&gt;
   MPE Contect(6)跑一个；xEnt Contect(-3 -2 -1 0 1 2 3)+MPE；&lt;br /&gt;
   Darkknowledge一个；4*600*800 Nnet3的训练脚本；&lt;br /&gt;
   5*600*800加深一层跑一个；&lt;br /&gt;
&lt;br /&gt;
   解码效率：&lt;br /&gt;
   NNet3的产品化&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
      测试加重“xx导演的巩俐演的”待测试。&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。 会训练WordVector，但是没有加入模型。&lt;br /&gt;
    每个词的权重不一样（distance）。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。&lt;br /&gt;
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。&lt;br /&gt;
&lt;br /&gt;
8K CTC 4000小时 （8-10天）&lt;br /&gt;
&lt;br /&gt;
训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）&lt;br /&gt;
之前测试集有问题&lt;br /&gt;
字面和英文加入，测试集有，训练现在没有；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status</id>
		<title>Sinovoice-Weekly-status</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status"/>
				<updated>2015-12-23T05:29:26Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Sinovoice-2013-12-24|2013-12-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-06|2014-01-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-13|2014-01-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-20|2014-01-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-12-10|2014-02-10]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-17|2014-02-17]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-25|2014-02-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-04|2014-03-04]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-11|2014-03-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-18|2014-03-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-25|2014-03-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-01|2014-04-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-08|2014-04-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-15|2014-04-15]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-22|2014-04-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-18|2015-08-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-25|2015-08-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-01|2015-09-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-08|2015-09-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-18|2015-09-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-22|2015-09-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-13|2015-10-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-21|2015-10-21]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-28|2015-10-28]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-05|2015-11-05]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-11|2015-11-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-18|2015-11-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-25|2015-11-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-02|2015-12-02]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-09|2015-12-09]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-16|2015-12-16]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-23|2015-12-23]]&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-16</id>
		<title>Sinovoice-2015-12-16</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-16"/>
				<updated>2015-12-16T06:28:51Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：以“==数据== *第三季度目标 ===语音数据===  *16K 灵云数据  10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中...”为内容创建页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
已完成80小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   训练第七轮；cer9.41； 700/3500&lt;br /&gt;
   拷贝一份，启动8个job；原来的继续；&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
   Context的窗大(-10,+10)的时候不收敛。&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
   MPE今天跑起来一个；用Context有问题的脚本先跑起来；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
   &lt;br /&gt;
   小模型测试，cer20+；&lt;br /&gt;
   bigLM的生成还有问题！&lt;br /&gt;
&lt;br /&gt;
   生成结果有乱码：已解决，依赖的软件包的编译问题。&lt;br /&gt;
   识别率不稳定，变化比较大：测试一万句的测试集；&lt;br /&gt;
   将测试集分成4块，识别率基本一致；&lt;br /&gt;
   句子越长，识别率越高；&lt;br /&gt;
&lt;br /&gt;
   深度的影响更大，宽度相对较小；&lt;br /&gt;
   sigmod，改为rectifier&lt;br /&gt;
&lt;br /&gt;
   MPE Contect(6)跑一个；xEnt Contect(-3 -2 -1 0 1 2 3)+MPE；&lt;br /&gt;
   Darkknowledge一个；4*600*800 Nnet3的训练脚本；&lt;br /&gt;
   5*600*800加深一层跑一个；&lt;br /&gt;
&lt;br /&gt;
   解码效率：&lt;br /&gt;
   NNet3的产品化&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
      测试加重“xx导演的巩俐演的”待测试。&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。 会训练WordVector，但是没有加入模型。&lt;br /&gt;
    每个词的权重不一样（distance）。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。&lt;br /&gt;
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。&lt;br /&gt;
&lt;br /&gt;
8K CTC 4000小时 （8-10天）&lt;br /&gt;
&lt;br /&gt;
训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）&lt;br /&gt;
之前测试集有问题&lt;br /&gt;
字面和英文加入，测试集有，训练现在没有；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status</id>
		<title>Sinovoice-Weekly-status</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status"/>
				<updated>2015-12-16T05:40:04Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Sinovoice-2013-12-24|2013-12-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-06|2014-01-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-13|2014-01-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-20|2014-01-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-12-10|2014-02-10]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-17|2014-02-17]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-25|2014-02-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-04|2014-03-04]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-11|2014-03-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-18|2014-03-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-25|2014-03-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-01|2014-04-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-08|2014-04-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-15|2014-04-15]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-22|2014-04-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-18|2015-08-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-25|2015-08-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-01|2015-09-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-08|2015-09-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-18|2015-09-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-22|2015-09-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-13|2015-10-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-21|2015-10-21]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-28|2015-10-28]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-05|2015-11-05]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-11|2015-11-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-18|2015-11-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-25|2015-11-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-02|2015-12-02]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-09|2015-12-09]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-16|2015-12-16]]&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-09</id>
		<title>Sinovoice-2015-12-09</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-09"/>
				<updated>2015-12-09T06:10:42Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
已完成80小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   训练第六轮；cer9.41；&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
   大体没有问题，验证一些小问题，预期下周一发过来？&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
   MPE今天跑起来一个；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
   &lt;br /&gt;
   小模型测试，cer20+；&lt;br /&gt;
   bigLM的生成还有问题！&lt;br /&gt;
&lt;br /&gt;
   生成结果有乱码：已解决，依赖的软件包的编译问题。&lt;br /&gt;
   识别率不稳定，变化比较大：测试一万句的测试集；&lt;br /&gt;
   将测试集分成多块，进行识别，判断是否稳定？  晓明小韩&lt;br /&gt;
   按照句子的长短，验证是否跟长短有关？        晓明小韩&lt;br /&gt;
&lt;br /&gt;
   解码效率：&lt;br /&gt;
   NNet3的产品化&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
      测试加重“xx导演的巩俐演的”待测试。&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。 会训练WordVector，但是没有加入模型。&lt;br /&gt;
    每个词的权重不一样（distance）。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。&lt;br /&gt;
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。&lt;br /&gt;
&lt;br /&gt;
训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）&lt;br /&gt;
之前测试集有问题&lt;br /&gt;
字面和英文加入，测试集有，训练现在没有；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-09</id>
		<title>Sinovoice-2015-12-09</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-09"/>
				<updated>2015-12-09T06:00:34Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
已完成80小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   训练第六轮；cer9.41；&lt;br /&gt;
&lt;br /&gt;
MPE的训练:&lt;br /&gt;
   大体没有问题，验证一些小问题，预期下周一发过来？&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
   MPE今天跑起来一个；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
   &lt;br /&gt;
   小模型测试，cer20+；&lt;br /&gt;
   bigLM的生成还有问题！&lt;br /&gt;
&lt;br /&gt;
   生成结果有乱码：已解决，依赖的软件包的编译问题。&lt;br /&gt;
   识别率不稳定，变化比较大：测试一万句的测试集；&lt;br /&gt;
   将测试集分成多块，进行识别，判断是否稳定？  晓明小韩&lt;br /&gt;
   按照句子的长短，验证是否跟长短有关？        晓明小韩&lt;br /&gt;
   解码效率：&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
      测试加重“xx导演的巩俐演的”待测试。&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。 会训练WordVector，但是没有加入模型。&lt;br /&gt;
    每个词的权重不一样（distance）。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。&lt;br /&gt;
&lt;br /&gt;
训练数据的并行读取问题？Hadoop？特征+lattice&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
69小时的（CER28%）&lt;br /&gt;
之前测试集有问题&lt;br /&gt;
字面和英文加入，测试集有，训练现在没有；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-09</id>
		<title>Sinovoice-2015-12-09</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-09"/>
				<updated>2015-12-09T05:30:50Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：以“==数据== *第三季度目标 ===语音数据===  *16K 灵云数据  10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中...”为内容创建页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
已完成80小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   GMM&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
Nnet3 training on LARGE DATA:&lt;br /&gt;
&lt;br /&gt;
8k:&lt;br /&gt;
     &lt;br /&gt;
	8k:&lt;br /&gt;
	Dataset = 4200h, LM = 1e-8, beam = 9&lt;br /&gt;
	Baseline is pure-CN model, nnet3 models are multi-lingual models.&lt;br /&gt;
&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
  AM / test  |   test_JS   |  test_Shanxi  |  test_Shaanxi  |  test_Unknown  |  test_BJYD  |  test_huaweiFuCe  |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
Baseline_xEnt|    19.90    |     26.90     |      25.43     |      24.13     |    26.89    |       16.15       |&lt;br /&gt;
Baseline_MPE |    18.39    |     23.97     |      22.82     |      21.35     |    24.53    |       14.22       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
nnet3_4*1200 |    22.44    |     28.31     |      26.59     |      25.10     |    26.57    |       18.93       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
nnet3_7*2048 |    20.06    |     24.86     |      23.08     |      21.33     |    22.40    |       14.61       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
  rt:&lt;br /&gt;
  beam9:                                   beam13:&lt;br /&gt;
    nnet1_4*1200+7934: 0.45 (train212)        nnet1_4*1200+7934: 1.2 (train212)&lt;br /&gt;
    nnet3_4*1200+8393: 0.35 (train92)         nnet3_4*1200+8393: 0.9 (train92)&lt;br /&gt;
    nnet3_7*2048+8393: 0.8 (train92)          nnet3_7*2048+8393: 1.2 (train92)&lt;br /&gt;
&lt;br /&gt;
16k:&lt;br /&gt;
  LM = 1e-7, beam = 13&lt;br /&gt;
  Baseline is 6000h+776h mpe model.&lt;br /&gt;
  nnet3 model is trained by 1700h+776h data.&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
  AM / test        | 1000ju_from_test_8000ju | 2000ju_from_test_10000ju |&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
6776h_mpe(baseline)|          10.05          |           21.16          |&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
  nnet3_6*2000     |           9.56          |           20.94          |&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
  rt:&lt;br /&gt;
  beam13:&lt;br /&gt;
    nnet1_4*1200+6761: 0.6-0.7 (train212)&lt;br /&gt;
    nnet3_6*2000+6761: 0.7-0.8 (train212) 0.9-1.0 (queue)&lt;br /&gt;
&lt;br /&gt;
MPE的训练&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
   小模型测试，cer20+；&lt;br /&gt;
   bigLM的生成还有问题！&lt;br /&gt;
   生成结果有乱码？和机器有关 lattice&lt;br /&gt;
&lt;br /&gt;
   解码效率：&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
      测试加重“xx导演的巩俐演的”待测试。&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。 会训练WordVector，但是没有加入模型。&lt;br /&gt;
    每个词的权重不一样（distance）。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
小数据集没有问题了，MPE的并行有问题；&lt;br /&gt;
在大数据集上训练验证。&lt;br /&gt;
&lt;br /&gt;
单机完成；&lt;br /&gt;
&lt;br /&gt;
一个月完成大模型的训练；&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：大约1个月，上线约需要3个月；&lt;br /&gt;
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3&lt;br /&gt;
CDphone ： 搞定，效果还在验证中 h1clg&lt;br /&gt;
&lt;br /&gt;
CTC Kaldi版本&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
60小时的，和30小时的（CER45%），没有变化，好了一点点；&lt;br /&gt;
CER：44%；&lt;br /&gt;
只训练最后一层，华为信道；只训练了声学，语言没有更新；&lt;br /&gt;
查错，找原因；语言模型训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status</id>
		<title>Sinovoice-Weekly-status</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status"/>
				<updated>2015-12-09T05:30:25Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Sinovoice-2013-12-24|2013-12-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-06|2014-01-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-13|2014-01-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-20|2014-01-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-12-10|2014-02-10]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-17|2014-02-17]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-25|2014-02-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-04|2014-03-04]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-11|2014-03-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-18|2014-03-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-25|2014-03-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-01|2014-04-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-08|2014-04-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-15|2014-04-15]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-22|2014-04-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-18|2015-08-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-25|2015-08-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-01|2015-09-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-08|2015-09-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-18|2015-09-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-22|2015-09-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-13|2015-10-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-21|2015-10-21]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-28|2015-10-28]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-05|2015-11-05]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-11|2015-11-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-18|2015-11-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-25|2015-11-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-02|2015-12-02]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-09|2015-12-09]]&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-02</id>
		<title>Sinovoice-2015-12-02</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-02"/>
				<updated>2015-12-02T06:27:30Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
已完成80小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   GMM&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
Nnet3 training on LARGE DATA:&lt;br /&gt;
&lt;br /&gt;
8k:&lt;br /&gt;
     &lt;br /&gt;
	8k:&lt;br /&gt;
	Dataset = 4200h, LM = 1e-8, beam = 9&lt;br /&gt;
	Baseline is pure-CN model, nnet3 models are multi-lingual models.&lt;br /&gt;
&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
  AM / test  |   test_JS   |  test_Shanxi  |  test_Shaanxi  |  test_Unknown  |  test_BJYD  |  test_huaweiFuCe  |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
Baseline_xEnt|    19.90    |     26.90     |      25.43     |      24.13     |    26.89    |       16.15       |&lt;br /&gt;
Baseline_MPE |    18.39    |     23.97     |      22.82     |      21.35     |    24.53    |       14.22       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
nnet3_4*1200 |    22.44    |     28.31     |      26.59     |      25.10     |    26.57    |       18.93       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
nnet3_7*2048 |    20.06    |     24.86     |      23.08     |      21.33     |    22.40    |       14.61       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
  rt:&lt;br /&gt;
  beam9:                                   beam13:&lt;br /&gt;
    nnet1_4*1200+7934: 0.45 (train212)        nnet1_4*1200+7934: 1.2 (train212)&lt;br /&gt;
    nnet3_4*1200+8393: 0.35 (train92)         nnet3_4*1200+8393: 0.9 (train92)&lt;br /&gt;
    nnet3_7*2048+8393: 0.8 (train92)          nnet3_7*2048+8393: 1.2 (train92)&lt;br /&gt;
&lt;br /&gt;
16k:&lt;br /&gt;
  LM = 1e-7, beam = 13&lt;br /&gt;
  Baseline is 6000h+776h mpe model.&lt;br /&gt;
  nnet3 model is trained by 1700h+776h data.&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
  AM / test        | 1000ju_from_test_8000ju | 2000ju_from_test_10000ju |&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
6776h_mpe(baseline)|          10.05          |           21.16          |&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
  nnet3_6*2000     |           9.56          |           20.94          |&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
  rt:&lt;br /&gt;
  beam13:&lt;br /&gt;
    nnet1_4*1200+6761: 0.6-0.7 (train212)&lt;br /&gt;
    nnet3_6*2000+6761: 0.7-0.8 (train212) 0.9-1.0 (queue)&lt;br /&gt;
&lt;br /&gt;
MPE的训练&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
   小模型测试，cer20+；&lt;br /&gt;
   bigLM的生成还有问题！&lt;br /&gt;
   生成结果有乱码？和机器有关 lattice&lt;br /&gt;
&lt;br /&gt;
   解码效率：&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
      测试加重“xx导演的巩俐演的”待测试。&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。 会训练WordVector，但是没有加入模型。&lt;br /&gt;
    每个词的权重不一样（distance）。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
小数据集没有问题了，MPE的并行有问题；&lt;br /&gt;
在大数据集上训练验证。&lt;br /&gt;
&lt;br /&gt;
单机完成；&lt;br /&gt;
&lt;br /&gt;
一个月完成大模型的训练；&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：大约1个月，上线约需要3个月；&lt;br /&gt;
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3&lt;br /&gt;
CDphone ： 搞定，效果还在验证中 h1clg&lt;br /&gt;
&lt;br /&gt;
CTC Kaldi版本&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
60小时的，和30小时的（CER45%），没有变化，好了一点点；&lt;br /&gt;
CER：44%；&lt;br /&gt;
只训练最后一层，华为信道；只训练了声学，语言没有更新；&lt;br /&gt;
查错，找原因；语言模型训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-02</id>
		<title>Sinovoice-2015-12-02</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-12-02"/>
				<updated>2015-12-02T05:39:21Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：以“==数据== *第三季度目标 ===语音数据===  *16K 灵云数据  10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中...”为内容创建页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
已完成80小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   GMM&lt;br /&gt;
   有卡的问题，卡在IO，100线&lt;br /&gt;
   SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；&lt;br /&gt;
&lt;br /&gt;
   选：Rectifier&lt;br /&gt;
   BigAM&lt;br /&gt;
&lt;br /&gt;
   分了200份&lt;br /&gt;
   大模型的MPE&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
Nnet3 training on LARGE DATA:&lt;br /&gt;
&lt;br /&gt;
8k:&lt;br /&gt;
	Dataset = 4200h, LM = 1e-8, beam = 9&lt;br /&gt;
	Baseline is pure-CN model, nnet3 models are multi-lingual models.&lt;br /&gt;
	nnet3 4*1200 is final model, while nnet3 7*2048 training is unfinished, the training process is about 40%.&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
  AM / test  |   test_JS   |  test_Shanxi  |  test_Shaanxi  |  test_Unknown  |  test_BJYD  |  test_huaweiFuCe  |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
Baseline_xEnt|    19.90    |     26.90     |      25.43     |      24.13     |    26.89    |       16.15       |&lt;br /&gt;
Baseline_MPE |    18.39    |     23.97     |      22.82     |      21.35     |    24.53    |       14.22       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
nnet3_4*1200 |    22.44    |     28.31     |      26.59     |      25.10     |    26.57    |       18.93       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
nnet3_7*2048 |    20.18    |     25.35     |      23.40     |      21.55     |    23.22    |       14.77       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
  rt:&lt;br /&gt;
  beam9:                                   beam13:&lt;br /&gt;
    nnet1_4*1200+7934: 0.45 (train212)        nnet1_4*1200+7934: 1.2 (train212)&lt;br /&gt;
    nnet3_4*1200+8393: 0.35 (train92)         nnet3_4*1200+8393: 0.9 (train92)&lt;br /&gt;
    nnet3_7*2048+8393: 0.8 (train92)          nnet3_7*2048+8393: 1.2 (train92)&lt;br /&gt;
	&lt;br /&gt;
&lt;br /&gt;
16k:&lt;br /&gt;
  LM = 1e-7, beam = 13&lt;br /&gt;
  Baseline is 6000h+776h mpe model.&lt;br /&gt;
  nnet3 model is trained by 1700h+776h data.&lt;br /&gt;
	The training nnet3 training is unfinished, the training process is about 75%.&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
  AM / test        | 1000ju_from_test_8000ju | 2000ju_from_test_10000ju |&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
6776h_mpe(baseline)|          10.05          |           21.16          |&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
  nnet3_6*2000     |           9.56          |           20.85          |&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
  rt:&lt;br /&gt;
  beam13:&lt;br /&gt;
    nnet1_4*1200+6761: 0.6-0.7 (train212)&lt;br /&gt;
    nnet3_6*2000+6761: 0.7-0.8 (train212) 0.9-1.0 (queue)&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
   小模型测试，cer20+；&lt;br /&gt;
   bigLM的生成还有问题！&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
      测试加重“xx导演的巩俐演的”待测试。&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。 会训练WordVector，但是没有加入模型。&lt;br /&gt;
    每个词的权重不一样（distance）。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
单机完成；&lt;br /&gt;
&lt;br /&gt;
一个月完成大模型的训练；&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：大约1个月，上线约需要3个月；&lt;br /&gt;
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3&lt;br /&gt;
CDphone ： 搞定，效果还在验证中 h1clg&lt;br /&gt;
&lt;br /&gt;
CTC Kaldi版本&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
60小时的，和30小时的（CER45%），没有变化，好了一点点；&lt;br /&gt;
CER：44%；&lt;br /&gt;
只训练最后一层，华为信道；只训练了声学，语言没有更新；&lt;br /&gt;
查错，找原因；语言模型训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status</id>
		<title>Sinovoice-Weekly-status</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status"/>
				<updated>2015-12-02T05:38:55Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Sinovoice-2013-12-24|2013-12-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-06|2014-01-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-13|2014-01-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-20|2014-01-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-12-10|2014-02-10]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-17|2014-02-17]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-25|2014-02-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-04|2014-03-04]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-11|2014-03-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-18|2014-03-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-25|2014-03-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-01|2014-04-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-08|2014-04-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-15|2014-04-15]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-22|2014-04-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-18|2015-08-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-25|2015-08-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-01|2015-09-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-08|2015-09-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-18|2015-09-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-22|2015-09-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-13|2015-10-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-21|2015-10-21]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-28|2015-10-28]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-05|2015-11-05]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-11|2015-11-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-18|2015-11-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-25|2015-11-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-12-02|2015-12-02]]&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-25</id>
		<title>Sinovoice-2015-11-25</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-25"/>
				<updated>2015-11-25T08:08:43Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
已完成80小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   GMM&lt;br /&gt;
   有卡的问题，卡在IO，100线&lt;br /&gt;
   SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；&lt;br /&gt;
&lt;br /&gt;
   选：Rectifier&lt;br /&gt;
   BigAM&lt;br /&gt;
&lt;br /&gt;
   分了200份&lt;br /&gt;
   大模型的MPE&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
Nnet3 training on LARGE DATA:&lt;br /&gt;
&lt;br /&gt;
8k:&lt;br /&gt;
	Dataset = 4200h, LM = 1e-8, beam = 9&lt;br /&gt;
	Baseline is pure-CN model, nnet3 models are multi-lingual models.&lt;br /&gt;
	nnet3 4*1200 is final model, while nnet3 7*2048 training is unfinished, the training process is about 40%.&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
  AM / test  |   test_JS   |  test_Shanxi  |  test_Shaanxi  |  test_Unknown  |  test_BJYD  |  test_huaweiFuCe  |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
Baseline_xEnt|    19.90    |     26.90     |      25.43     |      24.13     |    26.89    |       16.15       |&lt;br /&gt;
Baseline_MPE |    18.39    |     23.97     |      22.82     |      21.35     |    24.53    |       14.22       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
nnet3_4*1200 |    22.44    |     28.31     |      26.59     |      25.10     |    26.57    |       18.93       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
nnet3_7*2048 |    20.18    |     25.35     |      23.40     |      21.55     |    23.22    |       14.77       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
  rt:&lt;br /&gt;
  beam9:                                   beam13:&lt;br /&gt;
    nnet1_4*1200+7934: 0.45 (train212)        nnet1_4*1200+7934: 1.2 (train212)&lt;br /&gt;
    nnet3_4*1200+8393: 0.35 (train92)         nnet3_4*1200+8393: 0.9 (train92)&lt;br /&gt;
    nnet3_7*2048+8393: 0.8 (train92)          nnet3_7*2048+8393: 1.2 (train92)&lt;br /&gt;
	&lt;br /&gt;
&lt;br /&gt;
16k:&lt;br /&gt;
  LM = 1e-7, beam = 13&lt;br /&gt;
  Baseline is 6000h+776h mpe model.&lt;br /&gt;
  nnet3 model is trained by 1700h+776h data.&lt;br /&gt;
	The training nnet3 training is unfinished, the training process is about 75%.&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
  AM / test        | 1000ju_from_test_8000ju | 2000ju_from_test_10000ju |&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
6776h_mpe(baseline)|          10.05          |           21.16          |&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
  nnet3_6*2000     |           9.56          |           20.85          |&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
  rt:&lt;br /&gt;
  beam13:&lt;br /&gt;
    nnet1_4*1200+6761: 0.6-0.7 (train212)&lt;br /&gt;
    nnet3_6*2000+6761: 0.7-0.8 (train212) 0.9-1.0 (queue)&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
   小模型测试，cer20+；&lt;br /&gt;
   bigLM的生成还有问题！&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
      测试加重“xx导演的巩俐演的”待测试。&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。 会训练WordVector，但是没有加入模型。&lt;br /&gt;
    每个词的权重不一样（distance）。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
单机完成；&lt;br /&gt;
&lt;br /&gt;
一个月完成大模型的训练；&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：大约1个月，上线约需要3个月；&lt;br /&gt;
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3&lt;br /&gt;
CDphone ： 搞定，效果还在验证中 h1clg&lt;br /&gt;
&lt;br /&gt;
CTC Kaldi版本&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
60小时的，和30小时的（CER45%），没有变化，好了一点点；&lt;br /&gt;
CER：44%；&lt;br /&gt;
只训练最后一层，华为信道；只训练了声学，语言没有更新；&lt;br /&gt;
查错，找原因；语言模型训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
考勤系统，mic指定；&lt;br /&gt;
定制背景模型；&lt;br /&gt;
&lt;br /&gt;
加入情绪，场景的分析，分类的分析；&lt;br /&gt;
&lt;br /&gt;
将测试数据加入训练，看是否有提高？&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-25</id>
		<title>Sinovoice-2015-11-25</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-25"/>
				<updated>2015-11-25T07:21:06Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
60h trained. no tag text to lm, CER 45%&lt;br /&gt;
discard english text;&lt;br /&gt;
已完成80小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；last train 50h;&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   GMM&lt;br /&gt;
   有卡的问题，卡在IO，100线&lt;br /&gt;
   SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；&lt;br /&gt;
&lt;br /&gt;
   选：Rectifier&lt;br /&gt;
   BigAM&lt;br /&gt;
&lt;br /&gt;
   分了200份&lt;br /&gt;
   大模型的MPE&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
Nnet3 training on LARGE DATA:&lt;br /&gt;
&lt;br /&gt;
8k:&lt;br /&gt;
	Dataset = 4200h, LM = 1e-8, beam = 9&lt;br /&gt;
	Baseline is pure-CN model, nnet3 models are multi-lingual models.&lt;br /&gt;
	nnet3 4*1200 is final model, while nnet3 7*2048 training is unfinished, the training process is about 40%.&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
  AM / test  |   test_JS   |  test_Shanxi  |  test_Shaanxi  |  test_Unknown  |  test_BJYD  |  test_huaweiFuCe  |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
Baseline_xEnt|    19.90    |     26.90     |      25.43     |      24.13     |    26.89    |       16.15       |&lt;br /&gt;
Baseline_MPE |    18.39    |     23.97     |      22.82     |      21.35     |    24.53    |       14.22       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
nnet3_4*1200 |    22.44    |     28.31     |      26.59     |      25.10     |    26.57    |       18.93       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
nnet3_7*2048 |    20.18    |     25.35     |      23.40     |      21.55     |    23.22    |       14.77       |&lt;br /&gt;
-------------------------------------------------------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
  rt:&lt;br /&gt;
  beam9:                                   beam13:&lt;br /&gt;
    nnet1_4*1200+7934: 0.45 (train212)        nnet1_4*1200+7934: 1.2 (train212)&lt;br /&gt;
    nnet3_4*1200+8393: 0.35 (train92)         nnet3_4*1200+8393: 0.9 (train92)&lt;br /&gt;
    nnet3_7*2048+8393: 0.8 (train92)          nnet3_7*2048+8393: 1.2 (train92)&lt;br /&gt;
	&lt;br /&gt;
&lt;br /&gt;
16k:&lt;br /&gt;
  LM = 1e-7, beam = 13&lt;br /&gt;
  Baseline is 6000h+776h mpe model.&lt;br /&gt;
  nnet3 model is trained by 1700h+776h data.&lt;br /&gt;
	The training nnet3 training is unfinished, the training process is about 75%.&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
  AM / test        | 1000ju_from_test_8000ju | 2000ju_from_test_10000ju |&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
6776h_mpe(baseline)|          10.05          |           21.16          |&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
  nnet3_6*2000     |           9.56          |           20.85          |&lt;br /&gt;
--------------------------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
  rt:&lt;br /&gt;
  beam13:&lt;br /&gt;
    nnet1_4*1200+6761: 0.6-0.7 (train212)&lt;br /&gt;
    nnet3_6*2000+6761: 0.7-0.8 (train212) 0.9-1.0 (queue)&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
单机完成；&lt;br /&gt;
&lt;br /&gt;
一个月完成大模型的训练；&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：大约1个月，上线约需要3个月；&lt;br /&gt;
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3&lt;br /&gt;
CDphone&lt;br /&gt;
&lt;br /&gt;
CTC Kaldi版本&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==中英混识==         &lt;br /&gt;
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；&lt;br /&gt;
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。&lt;br /&gt;
&lt;br /&gt;
一个声学+多个语言模型：&lt;br /&gt;
得分的可比性：&lt;br /&gt;
&lt;br /&gt;
中文phone：&lt;br /&gt;
英文phone：&lt;br /&gt;
&lt;br /&gt;
Mixture:silence分开&lt;br /&gt;
LanguageID?&lt;br /&gt;
&lt;br /&gt;
中英单独识别：&lt;br /&gt;
两个解码：&lt;br /&gt;
&lt;br /&gt;
原始模型，增强不行；&lt;br /&gt;
同一个模型，&lt;br /&gt;
旁边网络&lt;br /&gt;
&lt;br /&gt;
解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；&lt;br /&gt;
40句完全对14句；4句+6句，剩下的不对；&lt;br /&gt;
&lt;br /&gt;
中文、英文同时标注；&lt;br /&gt;
声学中英混，语言模型，用Tag加；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
60小时的，和30小时的（CER45%），没有变化，好了一点点；&lt;br /&gt;
CER：44%；&lt;br /&gt;
只训练最后一层，华为信道；只训练了声学，语言没有更新；&lt;br /&gt;
查错，找原因；语言模型训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-25</id>
		<title>Sinovoice-2015-11-25</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-25"/>
				<updated>2015-11-25T04:49:26Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
已完成80小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   GMM&lt;br /&gt;
   有卡的问题，卡在IO，100线&lt;br /&gt;
   SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；&lt;br /&gt;
&lt;br /&gt;
   选：Rectifier&lt;br /&gt;
   BigAM&lt;br /&gt;
&lt;br /&gt;
   分了200份&lt;br /&gt;
   大模型的MPE&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
单机完成；&lt;br /&gt;
&lt;br /&gt;
一个月完成大模型的训练；&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：大约1个月，上线约需要3个月；&lt;br /&gt;
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3&lt;br /&gt;
CDphone&lt;br /&gt;
&lt;br /&gt;
CTC Kaldi版本&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==中英混识==         &lt;br /&gt;
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；&lt;br /&gt;
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。&lt;br /&gt;
&lt;br /&gt;
一个声学+多个语言模型：&lt;br /&gt;
得分的可比性：&lt;br /&gt;
&lt;br /&gt;
中文phone：&lt;br /&gt;
英文phone：&lt;br /&gt;
&lt;br /&gt;
Mixture:silence分开&lt;br /&gt;
LanguageID?&lt;br /&gt;
&lt;br /&gt;
中英单独识别：&lt;br /&gt;
两个解码：&lt;br /&gt;
&lt;br /&gt;
原始模型，增强不行；&lt;br /&gt;
同一个模型，&lt;br /&gt;
旁边网络&lt;br /&gt;
&lt;br /&gt;
解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；&lt;br /&gt;
40句完全对14句；4句+6句，剩下的不对；&lt;br /&gt;
&lt;br /&gt;
中文、英文同时标注；&lt;br /&gt;
声学中英混，语言模型，用Tag加；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
60小时的，和30小时的（CER45%），没有变化，好了一点点；&lt;br /&gt;
CER：44%；&lt;br /&gt;
只训练最后一层，华为信道；只训练了声学，语言没有更新；&lt;br /&gt;
查错，找原因；语言模型训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
端点检测，信噪比计算；&lt;br /&gt;
发音方式：坐着、站着&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-25</id>
		<title>Sinovoice-2015-11-25</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-25"/>
				<updated>2015-11-25T04:42:57Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
已完成80小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成120小时；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   GMM&lt;br /&gt;
   有卡的问题，卡在IO，100线&lt;br /&gt;
   SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；&lt;br /&gt;
&lt;br /&gt;
   选：Rectifier&lt;br /&gt;
   BigAM&lt;br /&gt;
&lt;br /&gt;
   分了200份&lt;br /&gt;
   大模型的MPE&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
单机完成；&lt;br /&gt;
&lt;br /&gt;
一个月完成大模型的训练；&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：大约1个月，上线约需要3个月；&lt;br /&gt;
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3&lt;br /&gt;
CDphone&lt;br /&gt;
&lt;br /&gt;
CTC Kaldi版本&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==中英混识==         &lt;br /&gt;
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；&lt;br /&gt;
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。&lt;br /&gt;
&lt;br /&gt;
一个声学+多个语言模型：&lt;br /&gt;
得分的可比性：&lt;br /&gt;
&lt;br /&gt;
中文phone：&lt;br /&gt;
英文phone：&lt;br /&gt;
&lt;br /&gt;
Mixture:silence分开&lt;br /&gt;
LanguageID?&lt;br /&gt;
&lt;br /&gt;
中英单独识别：&lt;br /&gt;
两个解码：&lt;br /&gt;
&lt;br /&gt;
原始模型，增强不行；&lt;br /&gt;
同一个模型，&lt;br /&gt;
旁边网络&lt;br /&gt;
&lt;br /&gt;
解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；&lt;br /&gt;
40句完全对14句；4句+6句，剩下的不对；&lt;br /&gt;
&lt;br /&gt;
中文、英文同时标注；&lt;br /&gt;
声学中英混，语言模型，用Tag加；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
60小时的，和30小时的（CER45%），没有变化，好了一点点；&lt;br /&gt;
CER：44%；&lt;br /&gt;
只训练最后一层，华为信道；只训练了声学，语言没有更新；&lt;br /&gt;
查错，找原因；语言模型训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-25</id>
		<title>Sinovoice-2015-11-25</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-25"/>
				<updated>2015-11-25T04:32:26Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
已完成55.74小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成110小时；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   GMM&lt;br /&gt;
   有卡的问题，卡在IO，100线&lt;br /&gt;
   SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；&lt;br /&gt;
&lt;br /&gt;
   选：Rectifier&lt;br /&gt;
   BigAM&lt;br /&gt;
&lt;br /&gt;
   分了200份&lt;br /&gt;
   大模型的MPE&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
单机完成；&lt;br /&gt;
&lt;br /&gt;
一个月完成大模型的训练；&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：大约1个月，上线约需要3个月；&lt;br /&gt;
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3&lt;br /&gt;
CDphone&lt;br /&gt;
&lt;br /&gt;
CTC Kaldi版本&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==中英混识==         &lt;br /&gt;
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；&lt;br /&gt;
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。&lt;br /&gt;
&lt;br /&gt;
一个声学+多个语言模型：&lt;br /&gt;
得分的可比性：&lt;br /&gt;
&lt;br /&gt;
中文phone：&lt;br /&gt;
英文phone：&lt;br /&gt;
&lt;br /&gt;
Mixture:silence分开&lt;br /&gt;
LanguageID?&lt;br /&gt;
&lt;br /&gt;
中英单独识别：&lt;br /&gt;
两个解码：&lt;br /&gt;
&lt;br /&gt;
原始模型，增强不行；&lt;br /&gt;
同一个模型，&lt;br /&gt;
旁边网络&lt;br /&gt;
&lt;br /&gt;
解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；&lt;br /&gt;
40句完全对14句；4句+6句，剩下的不对；&lt;br /&gt;
&lt;br /&gt;
中文、英文同时标注；&lt;br /&gt;
声学中英混，语言模型，用Tag加；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
60小时的，和30小时的（CER45%），没有变化，好了一点点；&lt;br /&gt;
CER：44%；&lt;br /&gt;
只训练最后一层，华为信道；只训练了声学，语言没有更新；&lt;br /&gt;
查错，找原因；语言模型训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
信道适应？&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-25</id>
		<title>Sinovoice-2015-11-25</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-25"/>
				<updated>2015-11-25T04:29:28Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：以“==数据== *第三季度目标 ===语音数据===  *16K 灵云数据  10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中...”为内容创建页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
已完成55.74小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成110小时；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   GMM&lt;br /&gt;
   有卡的问题，卡在IO，100线&lt;br /&gt;
   SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；&lt;br /&gt;
&lt;br /&gt;
   选：Rectifier&lt;br /&gt;
   BigAM&lt;br /&gt;
&lt;br /&gt;
   分了200份&lt;br /&gt;
   大模型的MPE&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
单机完成；&lt;br /&gt;
&lt;br /&gt;
一个月完成大模型的训练；&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：大约1个月，上线约需要3个月；&lt;br /&gt;
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3&lt;br /&gt;
CDphone&lt;br /&gt;
&lt;br /&gt;
CTC Kaldi版本&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==中英混识==         &lt;br /&gt;
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；&lt;br /&gt;
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。&lt;br /&gt;
&lt;br /&gt;
一个声学+多个语言模型：&lt;br /&gt;
得分的可比性：&lt;br /&gt;
&lt;br /&gt;
中文phone：&lt;br /&gt;
英文phone：&lt;br /&gt;
&lt;br /&gt;
Mixture:silence分开&lt;br /&gt;
LanguageID?&lt;br /&gt;
&lt;br /&gt;
中英单独识别：&lt;br /&gt;
两个解码：&lt;br /&gt;
&lt;br /&gt;
原始模型，增强不行；&lt;br /&gt;
同一个模型，&lt;br /&gt;
旁边网络&lt;br /&gt;
&lt;br /&gt;
解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；&lt;br /&gt;
40句完全对14句；4句+6句，剩下的不对；&lt;br /&gt;
&lt;br /&gt;
中文、英文同时标注；&lt;br /&gt;
声学中英混，语言模型，用Tag加；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
60小时的，和30小时的（CER45%），没有变化，好了一点点；&lt;br /&gt;
CER：44%；&lt;br /&gt;
只训练最后一层，华为信道；只训练了声学，语言没有更新；&lt;br /&gt;
查错，找原因；语言模型训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;br /&gt;
GMM个数256调整成128，ivector：200调100；&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
16K IV模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	1.08%	0.561605&lt;br /&gt;
8	0.45%	0.577476&lt;br /&gt;
16K IV数字模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	1.01%	0.564655&lt;br /&gt;
8	0.45%	0.591134&lt;br /&gt;
&lt;br /&gt;
8K IV模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	4.43%	0.5007&lt;br /&gt;
8	1.66%	0.56881&lt;br /&gt;
8K IV数字模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	4.14%	0.5849&lt;br /&gt;
8	1.55%	0.6039&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
周四中午论文学习：13:00；&lt;br /&gt;
周一下午项目：15:00；&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status</id>
		<title>Sinovoice-Weekly-status</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status"/>
				<updated>2015-11-25T04:28:59Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Sinovoice-2013-12-24|2013-12-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-06|2014-01-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-13|2014-01-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-20|2014-01-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-12-10|2014-02-10]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-17|2014-02-17]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-25|2014-02-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-04|2014-03-04]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-11|2014-03-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-18|2014-03-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-25|2014-03-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-01|2014-04-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-08|2014-04-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-15|2014-04-15]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-22|2014-04-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-18|2015-08-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-25|2015-08-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-01|2015-09-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-08|2015-09-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-18|2015-09-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-22|2015-09-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-13|2015-10-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-21|2015-10-21]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-28|2015-10-28]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-05|2015-11-05]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-11|2015-11-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-18|2015-11-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-25|2015-11-25]]&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-18</id>
		<title>Sinovoice-2015-11-18</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-18"/>
				<updated>2015-11-18T06:26:05Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：以“==数据== *第三季度目标 ===语音数据===  *16K 灵云数据  10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中...”为内容创建页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
已完成55.74小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成110小时；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   GMM&lt;br /&gt;
   有卡的问题，卡在IO，100线&lt;br /&gt;
   SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；&lt;br /&gt;
&lt;br /&gt;
   选：Rectifier&lt;br /&gt;
   BigAM&lt;br /&gt;
&lt;br /&gt;
   分了200份&lt;br /&gt;
   大模型的MPE&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
单机完成；&lt;br /&gt;
&lt;br /&gt;
一个月完成大模型的训练；&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：大约1个月，上线约需要3个月；&lt;br /&gt;
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3&lt;br /&gt;
CDphone&lt;br /&gt;
&lt;br /&gt;
CTC Kaldi版本&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==中英混识==         &lt;br /&gt;
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；&lt;br /&gt;
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。&lt;br /&gt;
&lt;br /&gt;
一个声学+多个语言模型：&lt;br /&gt;
得分的可比性：&lt;br /&gt;
&lt;br /&gt;
中文phone：&lt;br /&gt;
英文phone：&lt;br /&gt;
&lt;br /&gt;
Mixture:silence分开&lt;br /&gt;
LanguageID?&lt;br /&gt;
&lt;br /&gt;
中英单独识别：&lt;br /&gt;
两个解码：&lt;br /&gt;
&lt;br /&gt;
原始模型，增强不行；&lt;br /&gt;
同一个模型，&lt;br /&gt;
旁边网络&lt;br /&gt;
&lt;br /&gt;
解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；&lt;br /&gt;
40句完全对14句；4句+6句，剩下的不对；&lt;br /&gt;
&lt;br /&gt;
中文、英文同时标注；&lt;br /&gt;
声学中英混，语言模型，用Tag加；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
60小时的，和30小时的（CER45%），没有变化，好了一点点；&lt;br /&gt;
CER：44%；&lt;br /&gt;
只训练最后一层，华为信道；只训练了声学，语言没有更新；&lt;br /&gt;
查错，找原因；语言模型训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;br /&gt;
GMM个数256调整成128，ivector：200调100；&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
16K IV模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	1.08%	0.561605&lt;br /&gt;
8	0.45%	0.577476&lt;br /&gt;
16K IV数字模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	1.01%	0.564655&lt;br /&gt;
8	0.45%	0.591134&lt;br /&gt;
&lt;br /&gt;
8K IV模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	4.43%	0.5007&lt;br /&gt;
8	1.66%	0.56881&lt;br /&gt;
8K IV数字模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	4.14%	0.5849&lt;br /&gt;
8	1.55%	0.6039&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
周四中午论文学习：13:00；&lt;br /&gt;
周一下午项目：15:00；&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status</id>
		<title>Sinovoice-Weekly-status</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status"/>
				<updated>2015-11-18T05:29:52Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Sinovoice-2013-12-24|2013-12-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-06|2014-01-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-13|2014-01-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-20|2014-01-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-12-10|2014-02-10]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-17|2014-02-17]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-25|2014-02-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-04|2014-03-04]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-11|2014-03-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-18|2014-03-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-25|2014-03-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-01|2014-04-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-08|2014-04-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-15|2014-04-15]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-22|2014-04-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-18|2015-08-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-25|2015-08-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-01|2015-09-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-08|2015-09-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-18|2015-09-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-22|2015-09-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-13|2015-10-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-21|2015-10-21]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-28|2015-10-28]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-05|2015-11-05]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-11|2015-11-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-18|2015-11-18]]&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-11</id>
		<title>Sinovoice-2015-11-11</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-11"/>
				<updated>2015-11-11T06:45:12Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
已完成55.74小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成110小时；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   GMM&lt;br /&gt;
   有卡的问题，卡在IO，100线&lt;br /&gt;
   SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；&lt;br /&gt;
&lt;br /&gt;
   选一个：TDNN，Rectifier，PNorm&lt;br /&gt;
   RT相同，看那个更好；&lt;br /&gt;
   BigAM&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    WordVector？基于词向量的新词加重。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
model                                                      WER(%)       &lt;br /&gt;
                                                  3-gram LM    5-gram LM      traning time&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
dnn                                               21.00        20.47&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter1)               37.18        36.69&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter3)               28.55        25.80&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter4)               24.35        23.74&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter5)               21.30        20.79&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter6)               20.84        20.30          2.5day/iter&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：&lt;br /&gt;
并行：解决了慢的问题，多分了几个流；&lt;br /&gt;
CDphone&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==中英混识==         &lt;br /&gt;
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；&lt;br /&gt;
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。&lt;br /&gt;
&lt;br /&gt;
一个声学+多个语言模型：&lt;br /&gt;
得分的可比性：&lt;br /&gt;
&lt;br /&gt;
中文phone：&lt;br /&gt;
英文phone：&lt;br /&gt;
&lt;br /&gt;
Mixture:silence分开&lt;br /&gt;
LanguageID?&lt;br /&gt;
&lt;br /&gt;
中英单独识别：&lt;br /&gt;
两个解码：&lt;br /&gt;
&lt;br /&gt;
原始模型，增强不行；&lt;br /&gt;
同一个模型，&lt;br /&gt;
旁边网络&lt;br /&gt;
&lt;br /&gt;
Multi Task：&lt;br /&gt;
   对Target分成两部分（语音、说话人），对英文的增强；&lt;br /&gt;
   pdf monophone&lt;br /&gt;
   初步进行试验。&lt;br /&gt;
&lt;br /&gt;
解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；&lt;br /&gt;
40句完全对14句；4句+6句，剩下的不对；&lt;br /&gt;
&lt;br /&gt;
中文、英文同时标注；&lt;br /&gt;
声学中英混，语言模型，用Tag加；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
*目标       WER:&amp;gt;65%&lt;br /&gt;
===声学模型===&lt;br /&gt;
*需要标注语料，正在招标注员、验收员，进行招聘；&amp;quot;&lt;br /&gt;
*语言模型       &amp;quot;语言模型训练完了，测试结果：&lt;br /&gt;
8k模型：字错误率22.0&lt;br /&gt;
测试集采用的是海天润声给的样本数据，从16k转8k。&amp;quot;&lt;br /&gt;
&lt;br /&gt;
用实际语料标注的8K测试，CER：88%；&lt;br /&gt;
声学和语言模型，均不匹配；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;br /&gt;
GMM个数256调整成128，ivector：200调100；&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
16K IV模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	1.08%	0.561605&lt;br /&gt;
8	0.45%	0.577476&lt;br /&gt;
16K IV数字模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	1.01%	0.564655&lt;br /&gt;
8	0.45%	0.591134&lt;br /&gt;
&lt;br /&gt;
8K IV模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	4.43%	0.5007&lt;br /&gt;
8	1.66%	0.56881&lt;br /&gt;
8K IV数字模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	4.14%	0.5849&lt;br /&gt;
8	1.55%	0.6039&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
周四中午论文学习：13:00；&lt;br /&gt;
周一下午项目：15:00；&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-11</id>
		<title>Sinovoice-2015-11-11</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-11"/>
				<updated>2015-11-11T06:39:41Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
已完成55.74小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成110小时；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   GMM&lt;br /&gt;
   有卡的问题，卡在IO，100线&lt;br /&gt;
   SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    WordVector？基于词向量的新词加重。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
model                                                      WER(%)       &lt;br /&gt;
                                                  3-gram LM    5-gram LM      traning time&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
dnn                                               21.00        20.47&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter1)               37.18        36.69&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter3)               28.55        25.80&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter4)               24.35        23.74&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter5)               21.30        20.79&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter6)               20.84        20.30          2.5day/iter&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：&lt;br /&gt;
并行：解决了慢的问题，多分了几个流；&lt;br /&gt;
CDphone&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==中英混识==         &lt;br /&gt;
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；&lt;br /&gt;
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。&lt;br /&gt;
&lt;br /&gt;
一个声学+多个语言模型：&lt;br /&gt;
得分的可比性：&lt;br /&gt;
&lt;br /&gt;
中文phone：&lt;br /&gt;
英文phone：&lt;br /&gt;
&lt;br /&gt;
Mixture:silence分开&lt;br /&gt;
LanguageID?&lt;br /&gt;
&lt;br /&gt;
中英单独识别：&lt;br /&gt;
两个解码：&lt;br /&gt;
&lt;br /&gt;
原始模型，增强不行；&lt;br /&gt;
同一个模型，&lt;br /&gt;
旁边网络&lt;br /&gt;
&lt;br /&gt;
Multi Task：&lt;br /&gt;
   对Target分成两部分（语音、说话人），对英文的增强；&lt;br /&gt;
   pdf monophone&lt;br /&gt;
   初步进行试验。&lt;br /&gt;
&lt;br /&gt;
解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；&lt;br /&gt;
40句完全对14句；4句+6句，剩下的不对；&lt;br /&gt;
&lt;br /&gt;
中文、英文同时标注；&lt;br /&gt;
声学中英混，语言模型，用Tag加；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
*目标       WER:&amp;gt;65%&lt;br /&gt;
===声学模型===&lt;br /&gt;
*需要标注语料，正在招标注员、验收员，进行招聘；&amp;quot;&lt;br /&gt;
*语言模型       &amp;quot;语言模型训练完了，测试结果：&lt;br /&gt;
8k模型：字错误率22.0&lt;br /&gt;
测试集采用的是海天润声给的样本数据，从16k转8k。&amp;quot;&lt;br /&gt;
&lt;br /&gt;
用实际语料标注的8K测试，CER：88%；&lt;br /&gt;
声学和语言模型，均不匹配；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;br /&gt;
GMM个数256调整成128，ivector：200调100；&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
16K IV模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	1.08%	0.561605&lt;br /&gt;
8	0.45%	0.577476&lt;br /&gt;
16K IV数字模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	1.01%	0.564655&lt;br /&gt;
8	0.45%	0.591134&lt;br /&gt;
&lt;br /&gt;
8K IV模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	4.43%	0.5007&lt;br /&gt;
8	1.66%	0.56881&lt;br /&gt;
8K IV数字模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	4.14%	0.5849&lt;br /&gt;
8	1.55%	0.6039&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
周四中午论文学习：13:00；&lt;br /&gt;
周一下午项目：15:00；&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-11</id>
		<title>Sinovoice-2015-11-11</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-11"/>
				<updated>2015-11-11T05:00:03Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
已完成55.74小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成110小时；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：中文英文语料已处理完，中英混还在处理中；&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   8000-&amp;gt;800 需要调整pdf对应关系；&lt;br /&gt;
   4层600*800&lt;br /&gt;
   之勇已提供训练脚本；&lt;br /&gt;
   晓明准备搭建环境还是训练;&lt;br /&gt;
&lt;br /&gt;
&amp;gt; 整理了一下之前的结果，600_800模型比大模型差一点多。&lt;br /&gt;
&amp;gt; 之前好像是记错了，是600_800 + 小语言模型是88%左右，加大语言模型时差的不多。&lt;br /&gt;
  问题是：如果server模型已经是93.5%，Embedded模型是92.5%，即便DarkKnowledge能&lt;br /&gt;
  有很大改进，也只能是93%左右吧？&lt;br /&gt;
  这样不能看出有多少优势啊？&lt;br /&gt;
  DarkKnowledge先不训练。&lt;br /&gt;
  10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
WordVector？基于词向量的新词加重。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
Template tag include the word in the test&lt;br /&gt;
句式	Tag种类	Video数量	Name数量	Factor	测试集	                WER&lt;br /&gt;
38	2	282             792             -1	xiaomi_my_templete   	0.0034&lt;br /&gt;
38	2	282             792             -2	xiaomi_my_templete  	0.0034&lt;br /&gt;
38	2	282             792             1	xiaomi_my_templete  	0.0034&lt;br /&gt;
38	2	111754          132549          -1	xiaomi_my_templete  	0.044&lt;br /&gt;
38	2	1W              1W              -1	xiaomi_my_templete  	0.064&lt;br /&gt;
38	2	1W+1W           1W+1W  -1	xiaomi_my_templete	                0.068&lt;br /&gt;
55	2	1W              1W              -1	Xiaomi_Ttag               	0.030&lt;br /&gt;
&lt;br /&gt;
Splice corpus include the word in the test&lt;br /&gt;
句式	Tag种类	Video数量	Name数量	  测试集	             WER&lt;br /&gt;
38	2	1W	1W	xiaomi_my_templete	       0.037&lt;br /&gt;
38	2	1W+1W	1W+1W	xiaomi_my_templete	        0.027&lt;br /&gt;
55	2	1W	1W	Xiaomi_Ttag	        0.228&lt;br /&gt;
&lt;br /&gt;
勤威模型两个测试结果：&lt;br /&gt;
测试集	        模型	      nion_factor    WER&lt;br /&gt;
Qw_select       Templatetag                                        0.0810529961898&lt;br /&gt;
Qw_select       Templatetag+arpa	-1	0.125389677866&lt;br /&gt;
Qw_select       Templatetag+arpa	-3	0.128853481122&lt;br /&gt;
Qw_select       Templatetag+arpa	-5	0.140284031867&lt;br /&gt;
Qw_select       arpa		                                0.234933237099&lt;br /&gt;
&lt;br /&gt;
测试集	        模型	Union_factor	                WER&lt;br /&gt;
Qw_all	        Templatetag		                0.376478607803&lt;br /&gt;
Qw_all	        Templatetag+arpa	-1	0.154577168291&lt;br /&gt;
Qw_all	        arpa		                                0.220990647731&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
model                                                      WER(%)       &lt;br /&gt;
                                                  3-gram LM    5-gram LM      traning time&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
dnn                                               21.00        20.47&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter1)               37.18        36.69&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter3)               28.55        25.80&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter4)               24.35        23.74&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter5)               21.30        20.79&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter6)               20.84        20.30          2.5day/iter&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：&lt;br /&gt;
并行；&lt;br /&gt;
CDphone&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==中英混识==         &lt;br /&gt;
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；&lt;br /&gt;
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。&lt;br /&gt;
&lt;br /&gt;
一个声学+多个语言模型：&lt;br /&gt;
得分的可比性：&lt;br /&gt;
&lt;br /&gt;
中文phone：&lt;br /&gt;
英文phone：&lt;br /&gt;
&lt;br /&gt;
Mixture:silence分开&lt;br /&gt;
LanguageID?&lt;br /&gt;
&lt;br /&gt;
中英单独识别：&lt;br /&gt;
两个解码：&lt;br /&gt;
&lt;br /&gt;
原始模型，增强不行；&lt;br /&gt;
同一个模型，&lt;br /&gt;
旁边网络&lt;br /&gt;
&lt;br /&gt;
Multi Task：&lt;br /&gt;
   对Target分成两部分（语音、说话人），对英文的增强；&lt;br /&gt;
   pdf monophone&lt;br /&gt;
   初步进行试验。&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
*目标       WER:&amp;gt;65%&lt;br /&gt;
===声学模型===&lt;br /&gt;
*需要标注语料，正在招标注员、验收员，进行招聘；&amp;quot;&lt;br /&gt;
*语言模型       &amp;quot;语言模型训练完了，测试结果：&lt;br /&gt;
8k模型：字错误率22.0&lt;br /&gt;
测试集采用的是海天润声给的样本数据，从16k转8k。&amp;quot;&lt;br /&gt;
&lt;br /&gt;
用实际语料标注的8K测试，CER：88%；&lt;br /&gt;
声学和语言模型，均不匹配；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
16K IV模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	1.08%	0.561605&lt;br /&gt;
8	0.45%	0.577476&lt;br /&gt;
16K IV数字模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	1.01%	0.564655&lt;br /&gt;
8	0.45%	0.591134&lt;br /&gt;
&lt;br /&gt;
8K IV模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	4.43%	0.5007&lt;br /&gt;
8	1.66%	0.56881&lt;br /&gt;
8K IV数字模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	4.14%	0.5849&lt;br /&gt;
8	1.55%	0.6039&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-11</id>
		<title>Sinovoice-2015-11-11</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-11"/>
				<updated>2015-11-11T03:33:36Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
已完成55.74小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成110小时；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：中文英文语料已处理完，中英混还在处理中；&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   8000-&amp;gt;800 需要调整pdf对应关系；&lt;br /&gt;
   4层600*800&lt;br /&gt;
   之勇已提供训练脚本；&lt;br /&gt;
   晓明准备搭建环境还是训练;&lt;br /&gt;
&lt;br /&gt;
&amp;gt; 整理了一下之前的结果，600_800模型比大模型差一点多。&lt;br /&gt;
&amp;gt; 之前好像是记错了，是600_800 + 小语言模型是88%左右，加大语言模型时差的不多。&lt;br /&gt;
  问题是：如果server模型已经是93.5%，Embedded模型是92.5%，即便DarkKnowledge能&lt;br /&gt;
  有很大改进，也只能是93%左右吧？&lt;br /&gt;
  这样不能看出有多少优势啊？&lt;br /&gt;
  DarkKnowledge先不训练。&lt;br /&gt;
  10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
WordVector？基于词向量的新词加重。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
Template tag include the word in the test&lt;br /&gt;
句式	Tag种类	Video数量	Name数量	Factor	测试集	                WER&lt;br /&gt;
38	2	282             792             -1	xiaomi_my_templete   	0.0034&lt;br /&gt;
38	2	282             792             -2	xiaomi_my_templete  	0.0034&lt;br /&gt;
38	2	282             792             1	xiaomi_my_templete  	0.0034&lt;br /&gt;
38	2	111754          132549          -1	xiaomi_my_templete  	0.044&lt;br /&gt;
38	2	1W              1W              -1	xiaomi_my_templete  	0.064&lt;br /&gt;
38	2	1W+1W           1W+1W  -1	xiaomi_my_templete	                0.068&lt;br /&gt;
55	2	1W              1W              -1	Xiaomi_Ttag               	0.030&lt;br /&gt;
&lt;br /&gt;
Splice corpus include the word in the test&lt;br /&gt;
句式	Tag种类	Video数量	Name数量	  测试集	             WER&lt;br /&gt;
38	2	1W	1W	xiaomi_my_templete	       0.037&lt;br /&gt;
38	2	1W+1W	1W+1W	xiaomi_my_templete	        0.027&lt;br /&gt;
55	2	1W	1W	Xiaomi_Ttag	        0.228&lt;br /&gt;
&lt;br /&gt;
勤威模型两个测试结果：&lt;br /&gt;
测试集	        模型	      nion_factor    WER&lt;br /&gt;
Qw_select       Templatetag                                        0.0810529961898&lt;br /&gt;
Qw_select       Templatetag+arpa	-1	0.125389677866&lt;br /&gt;
Qw_select       Templatetag+arpa	-3	0.128853481122&lt;br /&gt;
Qw_select       Templatetag+arpa	-5	0.140284031867&lt;br /&gt;
Qw_select       arpa		                                0.234933237099&lt;br /&gt;
&lt;br /&gt;
测试集	        模型	Union_factor	                WER&lt;br /&gt;
Qw_all	        Templatetag		                0.376478607803&lt;br /&gt;
Qw_all	        Templatetag+arpa	-1	0.154577168291&lt;br /&gt;
Qw_all	        arpa		                                0.220990647731&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
model                                                      WER(%)       &lt;br /&gt;
                                                  3-gram LM    5-gram LM      traning time&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
dnn                                               21.00        20.47&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter1)               37.18        36.69&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter3)               28.55        25.80&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter4)               24.35        23.74&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter5)               21.30        20.79&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter6)               20.84        20.30          2.5day/iter&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：&lt;br /&gt;
并行；&lt;br /&gt;
CDphone&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==中英混识==         &lt;br /&gt;
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；&lt;br /&gt;
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。&lt;br /&gt;
&lt;br /&gt;
一个声学+多个语言模型：&lt;br /&gt;
得分的可比性：&lt;br /&gt;
&lt;br /&gt;
中文phone：&lt;br /&gt;
英文phone：&lt;br /&gt;
&lt;br /&gt;
Mixture:silence分开&lt;br /&gt;
LanguageID?&lt;br /&gt;
&lt;br /&gt;
中英单独识别：&lt;br /&gt;
两个解码：&lt;br /&gt;
&lt;br /&gt;
原始模型，增强不行；&lt;br /&gt;
同一个模型，&lt;br /&gt;
旁边网络&lt;br /&gt;
&lt;br /&gt;
Multi Task：&lt;br /&gt;
   对Target分成两部分（语音、说话人），对英文的增强；&lt;br /&gt;
   pdf monophone&lt;br /&gt;
   初步进行试验。&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
*目标       WER:&amp;gt;65%&lt;br /&gt;
===声学模型===&lt;br /&gt;
*需要标注语料，正在招标注员、验收员，进行招聘；&amp;quot;&lt;br /&gt;
*语言模型       &amp;quot;语言模型训练完了，测试结果：&lt;br /&gt;
8k模型：字错误率22.0&lt;br /&gt;
测试集采用的是海天润声给的样本数据，从16k转8k。&amp;quot;&lt;br /&gt;
&lt;br /&gt;
用实际语料标注的8K测试，CER：88%；&lt;br /&gt;
声学和语言模型，均不匹配；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-11</id>
		<title>Sinovoice-2015-11-11</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-11"/>
				<updated>2015-11-11T03:29:13Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：以“==数据== *第三季度目标 ===语音数据===  *16K 灵云数据  10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中...”为内容创建页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
粤语已标注45小时，本周能达到50小时，训练50小时增量模型；&lt;br /&gt;
？要达到75%的目标，大概需要多少语料？训练方法上是否有改进之处？&lt;br /&gt;
夹有英文。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已标注完成62小时，一个星期出不了1个小时;&lt;br /&gt;
可以先结一次。&lt;br /&gt;
语音标注、维语的语义理解，2年&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：中文英文语料已处理完，中英混还在处理中；&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   8000-&amp;gt;800 需要调整pdf对应关系；&lt;br /&gt;
   4层600*800&lt;br /&gt;
   之勇已提供训练脚本；&lt;br /&gt;
   晓明准备搭建环境还是训练;&lt;br /&gt;
&lt;br /&gt;
&amp;gt; 整理了一下之前的结果，600_800模型比大模型差一点多。&lt;br /&gt;
&amp;gt; 之前好像是记错了，是600_800 + 小语言模型是88%左右，加大语言模型时差的不多。&lt;br /&gt;
  问题是：如果server模型已经是93.5%，Embedded模型是92.5%，即便DarkKnowledge能&lt;br /&gt;
  有很大改进，也只能是93%左右吧？&lt;br /&gt;
  这样不能看出有多少优势啊？&lt;br /&gt;
  DarkKnowledge先不训练。&lt;br /&gt;
  10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
WordVector？基于词向量的新词加重。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
Template tag include the word in the test&lt;br /&gt;
句式	Tag种类	Video数量	Name数量	Factor	测试集	                WER&lt;br /&gt;
38	2	282             792             -1	xiaomi_my_templete   	0.0034&lt;br /&gt;
38	2	282             792             -2	xiaomi_my_templete  	0.0034&lt;br /&gt;
38	2	282             792             1	xiaomi_my_templete  	0.0034&lt;br /&gt;
38	2	111754          132549          -1	xiaomi_my_templete  	0.044&lt;br /&gt;
38	2	1W              1W              -1	xiaomi_my_templete  	0.064&lt;br /&gt;
38	2	1W+1W           1W+1W  -1	xiaomi_my_templete	                0.068&lt;br /&gt;
55	2	1W              1W              -1	Xiaomi_Ttag               	0.030&lt;br /&gt;
&lt;br /&gt;
Splice corpus include the word in the test&lt;br /&gt;
句式	Tag种类	Video数量	Name数量	  测试集	             WER&lt;br /&gt;
38	2	1W	1W	xiaomi_my_templete	       0.037&lt;br /&gt;
38	2	1W+1W	1W+1W	xiaomi_my_templete	        0.027&lt;br /&gt;
55	2	1W	1W	Xiaomi_Ttag	        0.228&lt;br /&gt;
&lt;br /&gt;
勤威模型两个测试结果：&lt;br /&gt;
测试集	        模型	      nion_factor    WER&lt;br /&gt;
Qw_select       Templatetag                                        0.0810529961898&lt;br /&gt;
Qw_select       Templatetag+arpa	-1	0.125389677866&lt;br /&gt;
Qw_select       Templatetag+arpa	-3	0.128853481122&lt;br /&gt;
Qw_select       Templatetag+arpa	-5	0.140284031867&lt;br /&gt;
Qw_select       arpa		                                0.234933237099&lt;br /&gt;
&lt;br /&gt;
测试集	        模型	Union_factor	                WER&lt;br /&gt;
Qw_all	        Templatetag		                0.376478607803&lt;br /&gt;
Qw_all	        Templatetag+arpa	-1	0.154577168291&lt;br /&gt;
Qw_all	        arpa		                                0.220990647731&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
model                                                      WER(%)       &lt;br /&gt;
                                                  3-gram LM    5-gram LM      traning time&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
dnn                                               21.00        20.47&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter1)               37.18        36.69&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter3)               28.55        25.80&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter4)               24.35        23.74&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter5)               21.30        20.79&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter6)               20.84        20.30          2.5day/iter&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：&lt;br /&gt;
并行；&lt;br /&gt;
CDphone&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==中英混识==         &lt;br /&gt;
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；&lt;br /&gt;
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。&lt;br /&gt;
&lt;br /&gt;
一个声学+多个语言模型：&lt;br /&gt;
得分的可比性：&lt;br /&gt;
&lt;br /&gt;
中文phone：&lt;br /&gt;
英文phone：&lt;br /&gt;
&lt;br /&gt;
Mixture:silence分开&lt;br /&gt;
LanguageID?&lt;br /&gt;
&lt;br /&gt;
中英单独识别：&lt;br /&gt;
两个解码：&lt;br /&gt;
&lt;br /&gt;
原始模型，增强不行；&lt;br /&gt;
同一个模型，&lt;br /&gt;
旁边网络&lt;br /&gt;
&lt;br /&gt;
Multi Task：&lt;br /&gt;
   对Target分成两部分（语音、说话人），对英文的增强；&lt;br /&gt;
   pdf monophone&lt;br /&gt;
   初步进行试验。&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
*目标       WER:&amp;gt;65%&lt;br /&gt;
===声学模型===&lt;br /&gt;
*需要标注语料，正在招标注员、验收员，进行招聘；&amp;quot;&lt;br /&gt;
*语言模型       &amp;quot;语言模型训练完了，测试结果：&lt;br /&gt;
8k模型：字错误率22.0&lt;br /&gt;
测试集采用的是海天润声给的样本数据，从16k转8k。&amp;quot;&lt;br /&gt;
&lt;br /&gt;
用实际语料标注的8K测试，CER：88%；&lt;br /&gt;
声学和语言模型，均不匹配；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status</id>
		<title>Sinovoice-Weekly-status</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-Weekly-status"/>
				<updated>2015-11-11T03:28:51Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Sinovoice-2013-12-24|2013-12-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-06|2014-01-06]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-13|2014-01-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-01-20|2014-01-20]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-12-10|2014-02-10]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-17|2014-02-17]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-02-25|2014-02-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-04|2014-03-04]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-11|2014-03-11]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-18|2014-03-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-03-25|2014-03-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-01|2014-04-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-08|2014-04-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-15|2014-04-15]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2014-04-22|2014-04-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-18|2015-08-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-08-25|2015-08-25]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-01|2015-09-01]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-08|2015-09-08]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-18|2015-09-18]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-09-22|2015-09-22]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-13|2015-10-13]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-21|2015-10-21]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-10-28|2015-10-28]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-05|2015-11-05]]&lt;br /&gt;
&lt;br /&gt;
[[Sinovoice-2015-11-11|2015-11-11]]&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-05</id>
		<title>Sinovoice-2015-11-05</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-05"/>
				<updated>2015-11-05T03:04:16Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：/* 声纹识别 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
粤语已标注45小时，本周能达到50小时，训练50小时增量模型；&lt;br /&gt;
？要达到75%的目标，大概需要多少语料？训练方法上是否有改进之处？&lt;br /&gt;
夹有英文。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已标注完成62小时，一个星期出不了1个小时;&lt;br /&gt;
可以先结一次。&lt;br /&gt;
语音标注、维语的语义理解，2年&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：中文英文语料已处理完，中英混还在处理中；&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   8000-&amp;gt;800 需要调整pdf对应关系；&lt;br /&gt;
   4层600*800&lt;br /&gt;
   之勇已提供训练脚本；&lt;br /&gt;
   晓明准备搭建环境还是训练;&lt;br /&gt;
&lt;br /&gt;
&amp;gt; 整理了一下之前的结果，600_800模型比大模型差一点多。&lt;br /&gt;
&amp;gt; 之前好像是记错了，是600_800 + 小语言模型是88%左右，加大语言模型时差的不多。&lt;br /&gt;
  问题是：如果server模型已经是93.5%，Embedded模型是92.5%，即便DarkKnowledge能&lt;br /&gt;
  有很大改进，也只能是93%左右吧？&lt;br /&gt;
  这样不能看出有多少优势啊？&lt;br /&gt;
  DarkKnowledge先不训练。&lt;br /&gt;
  10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
WordVector？基于词向量的新词加重。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
Template tag include the word in the test&lt;br /&gt;
句式	Tag种类	Video数量	Name数量	Factor	测试集	                WER&lt;br /&gt;
38	2	282             792             -1	xiaomi_my_templete   	0.0034&lt;br /&gt;
38	2	282             792             -2	xiaomi_my_templete  	0.0034&lt;br /&gt;
38	2	282             792             1	xiaomi_my_templete  	0.0034&lt;br /&gt;
38	2	111754          132549          -1	xiaomi_my_templete  	0.044&lt;br /&gt;
38	2	1W              1W              -1	xiaomi_my_templete  	0.064&lt;br /&gt;
38	2	1W+1W           1W+1W  -1	xiaomi_my_templete	                0.068&lt;br /&gt;
55	2	1W              1W              -1	Xiaomi_Ttag               	0.030&lt;br /&gt;
&lt;br /&gt;
Splice corpus include the word in the test&lt;br /&gt;
句式	Tag种类	Video数量	Name数量	  测试集	             WER&lt;br /&gt;
38	2	1W	1W	xiaomi_my_templete	       0.037&lt;br /&gt;
38	2	1W+1W	1W+1W	xiaomi_my_templete	        0.027&lt;br /&gt;
55	2	1W	1W	Xiaomi_Ttag	        0.228&lt;br /&gt;
&lt;br /&gt;
勤威模型两个测试结果：&lt;br /&gt;
测试集	        模型	      nion_factor    WER&lt;br /&gt;
Qw_select       Templatetag                                        0.0810529961898&lt;br /&gt;
Qw_select       Templatetag+arpa	-1	0.125389677866&lt;br /&gt;
Qw_select       Templatetag+arpa	-3	0.128853481122&lt;br /&gt;
Qw_select       Templatetag+arpa	-5	0.140284031867&lt;br /&gt;
Qw_select       arpa		                                0.234933237099&lt;br /&gt;
&lt;br /&gt;
测试集	        模型	Union_factor	                WER&lt;br /&gt;
Qw_all	        Templatetag		                0.376478607803&lt;br /&gt;
Qw_all	        Templatetag+arpa	-1	0.154577168291&lt;br /&gt;
Qw_all	        arpa		                                0.220990647731&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
model                                                      WER(%)       &lt;br /&gt;
                                                  3-gram LM    5-gram LM      traning time&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
dnn                                               21.00        20.47&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter1)               37.18        36.69&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter3)               28.55        25.80&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter4)               24.35        23.74&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter5)               21.30        20.79&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter6)               20.84        20.30          2.5day/iter&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：&lt;br /&gt;
并行；&lt;br /&gt;
CDphone&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==中英混识==         &lt;br /&gt;
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；&lt;br /&gt;
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。&lt;br /&gt;
&lt;br /&gt;
一个声学+多个语言模型：&lt;br /&gt;
得分的可比性：&lt;br /&gt;
&lt;br /&gt;
中文phone：&lt;br /&gt;
英文phone：&lt;br /&gt;
&lt;br /&gt;
Mixture:silence分开&lt;br /&gt;
LanguageID?&lt;br /&gt;
&lt;br /&gt;
中英单独识别：&lt;br /&gt;
两个解码：&lt;br /&gt;
&lt;br /&gt;
原始模型，增强不行；&lt;br /&gt;
同一个模型，&lt;br /&gt;
旁边网络&lt;br /&gt;
&lt;br /&gt;
Multi Task：&lt;br /&gt;
   对Target分成两部分（语音、说话人），对英文的增强；&lt;br /&gt;
   pdf monophone&lt;br /&gt;
   初步进行试验。&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
*目标       WER:&amp;gt;65%&lt;br /&gt;
===声学模型===&lt;br /&gt;
*需要标注语料，正在招标注员、验收员，进行招聘；&amp;quot;&lt;br /&gt;
*语言模型       &amp;quot;语言模型训练完了，测试结果：&lt;br /&gt;
8k模型：字错误率22.0&lt;br /&gt;
测试集采用的是海天润声给的样本数据，从16k转8k。&amp;quot;&lt;br /&gt;
&lt;br /&gt;
用实际语料标注的8K测试，CER：88%；&lt;br /&gt;
声学和语言模型，均不匹配；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-05</id>
		<title>Sinovoice-2015-11-05</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-05"/>
				<updated>2015-11-05T02:54:45Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
粤语已标注45小时，本周能达到50小时，训练50小时增量模型；&lt;br /&gt;
？要达到75%的目标，大概需要多少语料？训练方法上是否有改进之处？&lt;br /&gt;
夹有英文。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已标注完成62小时，一个星期出不了1个小时;&lt;br /&gt;
可以先结一次。&lt;br /&gt;
语音标注、维语的语义理解，2年&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：中文英文语料已处理完，中英混还在处理中；&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   8000-&amp;gt;800 需要调整pdf对应关系；&lt;br /&gt;
   4层600*800&lt;br /&gt;
   之勇已提供训练脚本；&lt;br /&gt;
   晓明准备搭建环境还是训练;&lt;br /&gt;
&lt;br /&gt;
&amp;gt; 整理了一下之前的结果，600_800模型比大模型差一点多。&lt;br /&gt;
&amp;gt; 之前好像是记错了，是600_800 + 小语言模型是88%左右，加大语言模型时差的不多。&lt;br /&gt;
  问题是：如果server模型已经是93.5%，Embedded模型是92.5%，即便DarkKnowledge能&lt;br /&gt;
  有很大改进，也只能是93%左右吧？&lt;br /&gt;
  这样不能看出有多少优势啊？&lt;br /&gt;
  DarkKnowledge先不训练。&lt;br /&gt;
  10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
WordVector？基于词向量的新词加重。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
Template tag include the word in the test&lt;br /&gt;
句式	Tag种类	Video数量	Name数量	Factor	测试集	                WER&lt;br /&gt;
38	2	282             792             -1	xiaomi_my_templete   	0.0034&lt;br /&gt;
38	2	282             792             -2	xiaomi_my_templete  	0.0034&lt;br /&gt;
38	2	282             792             1	xiaomi_my_templete  	0.0034&lt;br /&gt;
38	2	111754          132549          -1	xiaomi_my_templete  	0.044&lt;br /&gt;
38	2	1W              1W              -1	xiaomi_my_templete  	0.064&lt;br /&gt;
38	2	1W+1W           1W+1W  -1	xiaomi_my_templete	                0.068&lt;br /&gt;
55	2	1W              1W              -1	Xiaomi_Ttag               	0.030&lt;br /&gt;
&lt;br /&gt;
Splice corpus include the word in the test&lt;br /&gt;
句式	Tag种类	Video数量	Name数量	  测试集	             WER&lt;br /&gt;
38	2	1W	1W	xiaomi_my_templete	       0.037&lt;br /&gt;
38	2	1W+1W	1W+1W	xiaomi_my_templete	        0.027&lt;br /&gt;
55	2	1W	1W	Xiaomi_Ttag	        0.228&lt;br /&gt;
&lt;br /&gt;
勤威模型两个测试结果：&lt;br /&gt;
测试集	        模型	      nion_factor    WER&lt;br /&gt;
Qw_select       Templatetag                                        0.0810529961898&lt;br /&gt;
Qw_select       Templatetag+arpa	-1	0.125389677866&lt;br /&gt;
Qw_select       Templatetag+arpa	-3	0.128853481122&lt;br /&gt;
Qw_select       Templatetag+arpa	-5	0.140284031867&lt;br /&gt;
Qw_select       arpa		                                0.234933237099&lt;br /&gt;
&lt;br /&gt;
测试集	        模型	Union_factor	                WER&lt;br /&gt;
Qw_all	        Templatetag		                0.376478607803&lt;br /&gt;
Qw_all	        Templatetag+arpa	-1	0.154577168291&lt;br /&gt;
Qw_all	        arpa		                                0.220990647731&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
model                                                      WER(%)       &lt;br /&gt;
                                                  3-gram LM    5-gram LM      traning time&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
dnn                                               21.00        20.47&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter1)               37.18        36.69&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter3)               28.55        25.80&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter4)               24.35        23.74&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter5)               21.30        20.79&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter6)               20.84        20.30          2.5day/iter&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：&lt;br /&gt;
并行；&lt;br /&gt;
CDphone&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==中英混识==         &lt;br /&gt;
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；&lt;br /&gt;
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。&lt;br /&gt;
&lt;br /&gt;
一个声学+多个语言模型：&lt;br /&gt;
得分的可比性：&lt;br /&gt;
&lt;br /&gt;
中文phone：&lt;br /&gt;
英文phone：&lt;br /&gt;
&lt;br /&gt;
Mixture:silence分开&lt;br /&gt;
LanguageID?&lt;br /&gt;
&lt;br /&gt;
中英单独识别：&lt;br /&gt;
两个解码：&lt;br /&gt;
&lt;br /&gt;
原始模型，增强不行；&lt;br /&gt;
同一个模型，&lt;br /&gt;
旁边网络&lt;br /&gt;
&lt;br /&gt;
Multi Task：&lt;br /&gt;
   对Target分成两部分（语音、说话人），对英文的增强；&lt;br /&gt;
   pdf monophone&lt;br /&gt;
   初步进行试验。&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
*目标       WER:&amp;gt;65%&lt;br /&gt;
===声学模型===&lt;br /&gt;
*需要标注语料，正在招标注员、验收员，进行招聘；&amp;quot;&lt;br /&gt;
*语言模型       &amp;quot;语言模型训练完了，测试结果：&lt;br /&gt;
8k模型：字错误率22.0&lt;br /&gt;
测试集采用的是海天润声给的样本数据，从16k转8k。&amp;quot;&lt;br /&gt;
&lt;br /&gt;
用实际语料标注的8K测试，CER：88%；&lt;br /&gt;
声学和语言模型，均不匹配；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-05</id>
		<title>Sinovoice-2015-11-05</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php/Sinovoice-2015-11-05"/>
				<updated>2015-11-05T02:37:36Z</updated>
		
		<summary type="html">&lt;p&gt;Yanglibo：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
粤语已标注45小时，本周能达到50小时，训练50小时增量模型；&lt;br /&gt;
？要达到75%的目标，大概需要多少语料？训练方法上是否有改进之处？&lt;br /&gt;
夹有英文。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已标注完成62小时，一个星期出不了1个小时;&lt;br /&gt;
可以先结一次。&lt;br /&gt;
语音标注、维语的语义理解，2年&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：中文英文语料已处理完，中英混还在处理中；&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   8000-&amp;gt;800 需要调整pdf对应关系；&lt;br /&gt;
   4层600*800&lt;br /&gt;
   之勇已提供训练脚本；&lt;br /&gt;
   晓明准备搭建环境还是训练;&lt;br /&gt;
&lt;br /&gt;
&amp;gt; 整理了一下之前的结果，600_800模型比大模型差一点多。&lt;br /&gt;
&amp;gt; 之前好像是记错了，是600_800 + 小语言模型是88%左右，加大语言模型时差的不多。&lt;br /&gt;
  问题是：如果server模型已经是93.5%，Embedded模型是92.5%，即便DarkKnowledge能&lt;br /&gt;
  有很大改进，也只能是93%左右吧？&lt;br /&gt;
  这样不能看出有多少优势啊？&lt;br /&gt;
  DarkKnowledge先不训练。&lt;br /&gt;
  10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
WordVector？基于词向量的新词加重。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
Template tag include the word in the test&lt;br /&gt;
句式	Tag种类	Video数量	Name数量	Factor	测试集	                WER&lt;br /&gt;
38	2	282             792             -1	xiaomi_my_templete   	0.0034&lt;br /&gt;
38	2	282             792             -2	xiaomi_my_templete  	0.0034&lt;br /&gt;
38	2	282             792             1	xiaomi_my_templete  	0.0034&lt;br /&gt;
38	2	111754          132549          -1	xiaomi_my_templete  	0.044&lt;br /&gt;
38	2	1W              1W              -1	xiaomi_my_templete  	0.064&lt;br /&gt;
38	2	1W+1W           1W+1W  -1	xiaomi_my_templete	                0.068&lt;br /&gt;
55	2	1W              1W              -1	Xiaomi_Ttag               	0.030&lt;br /&gt;
&lt;br /&gt;
Splice corpus include the word in the test&lt;br /&gt;
句式	Tag种类	Video数量	Name数量	  测试集	             WER&lt;br /&gt;
38	2	1W	1W	xiaomi_my_templete	       0.037&lt;br /&gt;
38	2	1W+1W	1W+1W	xiaomi_my_templete	        0.027&lt;br /&gt;
55	2	1W	1W	Xiaomi_Ttag	        0.228&lt;br /&gt;
&lt;br /&gt;
勤威模型两个测试结果：&lt;br /&gt;
测试集	        模型	      nion_factor    WER&lt;br /&gt;
Qw_select       Templatetag                                        0.0810529961898&lt;br /&gt;
Qw_select       Templatetag+arpa	-1	0.125389677866&lt;br /&gt;
Qw_select       Templatetag+arpa	-3	0.128853481122&lt;br /&gt;
Qw_select       Templatetag+arpa	-5	0.140284031867&lt;br /&gt;
Qw_select       arpa		                                0.234933237099&lt;br /&gt;
&lt;br /&gt;
测试集	        模型	Union_factor	                WER&lt;br /&gt;
Qw_all	        Templatetag		                0.376478607803&lt;br /&gt;
Qw_all	        Templatetag+arpa	-1	0.154577168291&lt;br /&gt;
Qw_all	        arpa		                                0.220990647731&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
model                                                      WER(%)       &lt;br /&gt;
                                                  3-gram LM    5-gram LM      traning time&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
dnn                                               21.00        20.47&lt;br /&gt;
---------------------------------------------------------  &lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter1)               37.18        36.69&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter3)               28.55        25.80&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter4)               24.35        23.74&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter5)               21.30        20.79&lt;br /&gt;
train_phn_ly4_c320_lr0.00004(iter6)               20.84        20.30          2.5day/iter&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：&lt;br /&gt;
并行；&lt;br /&gt;
CDphone&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==中英混识==         &lt;br /&gt;
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；&lt;br /&gt;
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。&lt;br /&gt;
&lt;br /&gt;
一个声学+多个语言模型：&lt;br /&gt;
得分的可比性：&lt;br /&gt;
&lt;br /&gt;
中文phone：&lt;br /&gt;
英文phone：&lt;br /&gt;
&lt;br /&gt;
Mixture:silence分开&lt;br /&gt;
LanguageID?&lt;br /&gt;
&lt;br /&gt;
中英单独识别：&lt;br /&gt;
两个解码：&lt;br /&gt;
&lt;br /&gt;
原始模型，增强不行；&lt;br /&gt;
同一个模型，&lt;br /&gt;
旁边网络&lt;br /&gt;
&lt;br /&gt;
Multi Task：&lt;br /&gt;
   对Target分成两部分（语音、说话人），对英文的增强；&lt;br /&gt;
   pdf monophone&lt;br /&gt;
   初步进行试验。&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
*目标       WER:&amp;gt;65%&lt;br /&gt;
===声学模型===&lt;br /&gt;
*需要标注语料，正在招标注员、验收员，进行招聘；&amp;quot;&lt;br /&gt;
*语言模型       &amp;quot;语言模型训练完了，测试结果：&lt;br /&gt;
8k模型：字错误率22.0&lt;br /&gt;
测试集采用的是海天润声给的样本数据，从16k转8k。&amp;quot;&lt;br /&gt;
&lt;br /&gt;
用实际语料标注的8K测试，CER：88%；&lt;br /&gt;
声学和语言模型，均不匹配；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	</feed>