cslt Wiki - 用户贡献 [zh-cn]

Sinovoice-2016-2-25

2016-02-25T06:45:19Z

Yanglibo：

Sinovoice-2016-2-25

2016-02-25T05:40:07Z

Yanglibo：

==数据==

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

任务优先
覆盖优先

领域和口音或信道的覆盖性！！！
Darkknowledge方法
标注：听不懂的掠过；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
60h trained. no tag text to lm, CER 45%
discard english text;

*维语
已完成120小时；last train 50h; 目标200小时；
16K标注，灵云，180小时，收集验收；

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文

MPE的训练:
Condition: LM:1e-5/1e-9
test_8000ju test_10000ju
6000H 600*4_800 xEnt : 15.16 28.03
6000H 600*4_800 mpe : 12.09 23.51
6776H 1200*4_10000 mpe : 9.48 18.07

10000H 600*4_800 xEnt（迭代21轮） : 15.91
10000H 600*4_800 xEnt（迭代完成） : 15.56 26.71
10000H 2048*7_12000 xEnt(迭代1.7轮) : 10.12
10000H 2048*7_12000 xEnt(迭代2.6轮) : 9.73
10000H 2048*7_12000 xEnt(迭代3.8轮) : 9.51
10000H 2048*7_12000 xEnt(迭代5.1轮) : 9.53
10000H 2048*7_12000 xEnt(迭代6.0轮) : 9.41 17.75
10000H 2048*7_12000 xEnt(700.mdl ) : 9.35 17.71
10000H 2048*7_12000 xEnt(800.mdl ) : 9.27 17.57
10000H 2048*7_12000 xEnt(900.mdl ) : 9.20 17.51
10000H 2048*7_12000 xEnt(965.mdl ) : 9.20 17.60
10000H 2048*7_12000 200H mpe(2.mdl ) : 8.80 15.99
10000H 2048*7_12000 200H mpe(8.mdl ) : 8.71 15.91
10000H 2048*7_12000 1000H mpe(13.mdl) : 8.60 15.84

10000H 2048*7_12000 1000H mpe(13.mdl) : 8.60 15.84
10000H 2048*7_12000 1000H mpe(17.mdl) : 8.46 15.76
10000H 2048*7_12000 1000H mpe(26.mdl) : 8.47 15.71
10000H 2048*7_12000 1000H mpe(35.mdl) : 8.43 15.84
10000H 2048*7_12000 1000H mpe(42.mdl) : 8.40 15.87
10000H 2048*7_12000 1000H mpe(56.mdl) : 8.49 15.96

10000H 2048*7_6565 chain (2700.mdl) : 8.90 17.51

10000小时MPE，开跑，但是提升空间不大。

2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文信道、口音
华为V3信道压缩：4000小时，GMM

结果如下：
| | BJYD | JS2h |ShaanXi2h| ShanXi2h|huaweiFuCe|UnKnown2h|
| nnet1 1400h MPE | 22.49 | 19.81 | 19.63 | 21.90 | 16.72 | 22.00 |
| nnet1 4200h xEnt | 26.89 | 19.90 | 25.43 | 26.90 | 16.15 | 24.13 |
| nnet1 4200h MPE | 24.53 | 18.39 | 22.82 | 23.97 | 14.22 | 21.35 |

8k:
huaweiFuCe
nnet3_xEnt 7*2048+8393 : 14.61

chain 7*2048+6558 200.mdl: 17.83
chain 400.mdl: 17.09
chain 600.mdl: 18.13
chain 800.mdl: 19.05

在A01辽宁移动测试集上的实验结果：
dnn模型（mpe增量训练后）： 22.39
华为信道模型： 20.26
用辽宁移动数据在华为信道模型上做增量（6 mdl）： 18.16
用辽宁移动数据在华为信道模型上做增量（16 mdl）： 17.85

平安提高1个点；客户测试集提升3个点；
分析一下客户错误的原因？在LM上提升。是否有奇怪的噪声。

丢字问题：远端被识别为噪音。 sil_scale可以捞一些回来。
postscale乘法？指数？
找一个TestCase，怎么都调不回来的。（灵云输入法前面丢字）
16K的少些，8K的比较多；

平安100小时客户模型：
<pre>
new 100小时Inc，只替换声学模型 100小时Inc，替换声学语言模型
Agent User Entire pingan_kf_1h pingan_kh_1h Agent User Entire pingan_kf_1h pingan_kh_1h Agent User Entire pingan_kf_1h pingan_kh_1h
0.1069 0.3518 0.1495 0.11249 0.3629 0.1442 0.0641 0.3307 0.11861 0.3427 0.1523 0.0664 0.324
0.1095 0.3636 0.1403 0.0728 0.3756 0.11618 0.3577 0.1445 0.07501 0.3623 0.12014 0.357 0.1476 0.0779 0.35871
</pre>

===嵌入式===
* 10000h-chain 5*400+800 has been training.
* Dark-knowledge training scripts ready

16k 嵌入式模型最新结果如下：
-------------------------------------------------------------------------------
| nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE | chain |
test_8000ju | 16.12 | 11.31 | 14.89 | 12.77 | 11.74 |
test_10000ju | 28.83 | 23.82 | 27.43 | 25.05 | 22.35 |
-------------------------------------------------------------------------------
LM = 1e-5, 1e-9 biglm, beam = 13

-------------------------------------------------------------------------------
| nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE | chain |
test_8000ju | 16.12 | 11.31 | 14.89 | 12.77 | 11.10 |
test_10000ju | 28.83 | 23.82 | 27.43 | 25.05 | 21.33 |
-------------------------------------------------------------------------------

前4个模型结构是4*600+800，chain模型结构是5*400+800。
与nnet1_MPE相比，chain模型在8000ju上稍差，但在10000句上已经明显超过了。
目前chain模型训练还没结束，10000h数据大约过了2遍，不到总进度的1/3，但估计再往后的提升不会太显著了。

MPE没有做完；

TDNN+CTC 10000小时16K
8K5000小时Chain
16K10000小时Chain

TDDN -> Context -> 类CTC

<pre>
(1) 现在Chain model在大数据上遇到的瓶颈看起来是用的TDNN前端。应该改用LSTM前端以描述状态。
(2) LSTM对特征context不足，应结合TDNN
(3) LSTM不必特别多层，也不必所有gate都用上，只要能描述状态变化即可。
(4) 倾向构造这样的结构，底层是TDNN，高层是LSTM，LSTM只有一层即可，同时尽可能简化。
LSTM+TDNN+Chain大模型中加入状态的信息；一周
Lattice-Alignment

(5) TDNN + state + Chain objective或许会比TDNN+state后接MPE有所提高。或者，一个类似的CTC+MPE objective function.
</pre>

新松机器人：
接口

===TagModel===
*加重path或词边：组合词，lm中加重；晓明、小韩
:* 新词加重及添加

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；

===End-To-End/CTC===
Kaldi-nnet1, Kaldi-CTC, Kaldi-Chain and Eesen on WSJ. If GPU Parallel, then on grid-12 and grid-13.
mpe-2 means method that considering Transition instead of CctcTransition when mpe, while
mpe-1 means method that considering CctcTransition.
---------------------------------------------------------------------------------
model %WER (test_eval92) %WER (after MPE)
---------------------------------------------------------------------------------
kaldi/nnet1/dnn_2048_4(cd-dnn-hmm) 4.18
---------------------------------------------------------------------------------
kaldi/ctc/decode_bd_tgpr_plm0.15 8.01
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter1 7.78
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter2 __7.73__

Test CTC-mpe (considering CctcTransition) on aurora4.
---------------------------------------------------------------------------------
model %WER learning rate
---------------------------------------------------------------------------------
kaldi/ctc/decode_bd_tgpr_plm0.15 13.86
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter1 12.70 0.0002
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter2 12.28
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter3 12.43
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter4 12.34
---------------------------------------------------------------------------------

CTC MPE上已成功。
原理上：CTC+MMI = Chain

==粤语16K==
===声学模型===
已训练完成 130H

===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
69小时的（CER28%） FreeTalk
90小时的（CER27.5%）质检
190小时，73%

英文单词还没有加（英文的标音：用粤语的音素标）；
粤英文的模型，需要训练；
句子长，有两句，将CER拉下来了，分析这两句。

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

真实场景下的测试集？考勤机里面的数据整理出来。
考勤机Adaptation训练。

8个Phone和1个Tele的录音模型已训练完；
跨信道，阈值不一致；
需要解决跨信道的识别问题；

手机和固定电话，需要分开测试；
ubm256，需要加大；
组织一下数据，跑D-vector实验；

测试集，真实场景的

考勤系统，mic指定；
定制背景模型；

加入情绪，场景的分析，分类的分析；

将测试数据加入训练，看是否有提高？

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

端点检测，信噪比计算；
发音方式：坐着、站着

PLDA adaptation

Sinovoice-2016-2-25

2016-02-25T05:08:04Z

Yanglibo：以“==数据== *16K 灵云数据 10000小时实际语料的标注目标，已立项400小时的标注；语料从1000小时中，通过ASR打分，取出中间的400...”为内容创建页面

==数据==

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

任务优先
覆盖优先

领域和口音或信道的覆盖性！！！
Darkknowledge方法
标注：听不懂的掠过；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
60h trained. no tag text to lm, CER 45%
discard english text;

*维语
已完成120小时；last train 50h; 目标200小时；
16K标注，灵云，180小时，收集验收；

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文

MPE的训练:
Condition: LM:1e-5/1e-9
test_8000ju test_10000ju
6000H 600*4_800 xEnt : 15.16 28.03
6000H 600*4_800 mpe : 12.09 23.51
6776H 1200*4_10000 mpe : 9.48 18.07

10000H 600*4_800 xEnt（迭代21轮） : 15.91
10000H 600*4_800 xEnt（迭代完成） : 15.56 26.71
10000H 2048*7_12000 xEnt(迭代1.7轮) : 10.12
10000H 2048*7_12000 xEnt(迭代2.6轮) : 9.73
10000H 2048*7_12000 xEnt(迭代3.8轮) : 9.51
10000H 2048*7_12000 xEnt(迭代5.1轮) : 9.53
10000H 2048*7_12000 xEnt(迭代6.0轮) : 9.41 17.75
10000H 2048*7_12000 xEnt(700.mdl ) : 9.35 17.71
10000H 2048*7_12000 xEnt(800.mdl ) : 9.27 17.57
10000H 2048*7_12000 xEnt(900.mdl ) : 9.20 17.51
10000H 2048*7_12000 xEnt(965.mdl ) : 9.20 17.60
10000H 2048*7_12000 200H mpe(2.mdl ) : 8.80 15.99
10000H 2048*7_12000 200H mpe(8.mdl ) : 8.71 15.91
10000H 2048*7_12000 1000H mpe(13.mdl) : 8.60 15.84

10000H 2048*7_12000 1000H mpe(13.mdl) : 8.60 15.84
10000H 2048*7_12000 1000H mpe(17.mdl) : 8.46 15.76
10000H 2048*7_12000 1000H mpe(26.mdl) : 8.47 15.71
10000H 2048*7_12000 1000H mpe(35.mdl) : 8.43 15.84
10000H 2048*7_12000 1000H mpe(42.mdl) : 8.40 15.87
10000H 2048*7_12000 1000H mpe(56.mdl) : 8.49 15.96

10000H 2048*7_6565 chain (2700.mdl) : 8.90 17.51

10000小时MPE，开跑，但是提升空间不大。

2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文信道、口音
华为V3信道压缩：4000小时，GMM

结果如下：
| | BJYD | JS2h |ShaanXi2h| ShanXi2h|huaweiFuCe|UnKnown2h|
| nnet1 1400h MPE | 22.49 | 19.81 | 19.63 | 21.90 | 16.72 | 22.00 |
| nnet1 4200h xEnt | 26.89 | 19.90 | 25.43 | 26.90 | 16.15 | 24.13 |
| nnet1 4200h MPE | 24.53 | 18.39 | 22.82 | 23.97 | 14.22 | 21.35 |

8k:
huaweiFuCe
nnet3_xEnt 7*2048+8393 : 14.61

chain 7*2048+6558 200.mdl: 17.83
chain 400.mdl: 17.09
chain 600.mdl: 18.13
chain 800.mdl: 19.05

在A01辽宁移动测试集上的实验结果：
dnn模型（mpe增量训练后）： 22.39
华为信道模型： 20.26
用辽宁移动数据在华为信道模型上做增量（6 mdl）： 18.16
用辽宁移动数据在华为信道模型上做增量（16 mdl）： 17.85

平安提高1个点；客户测试集提升3个点；
分析一下客户错误的原因？在LM上提升。是否有奇怪的噪声。

丢字问题：远端被识别为噪音。 sil_scale可以捞一些回来。
postscale乘法？指数？
找一个TestCase，怎么都调不回来的。（灵云输入法前面丢字）
16K的少些，8K的比较多；

===嵌入式===
* 10000h-chain 5*400+800 has been training.
* Dark-knowledge training scripts ready

16k 嵌入式模型最新结果如下：
-------------------------------------------------------------------------------
| nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE | chain |
test_8000ju | 16.12 | 11.31 | 14.89 | 12.77 | 11.74 |
test_10000ju | 28.83 | 23.82 | 27.43 | 25.05 | 22.35 |
-------------------------------------------------------------------------------
LM = 1e-5, 1e-9 biglm, beam = 13

-------------------------------------------------------------------------------
| nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE | chain |
test_8000ju | 16.12 | 11.31 | 14.89 | 12.77 | 11.10 |
test_10000ju | 28.83 | 23.82 | 27.43 | 25.05 | 21.33 |
-------------------------------------------------------------------------------

前4个模型结构是4*600+800，chain模型结构是5*400+800。
与nnet1_MPE相比，chain模型在8000ju上稍差，但在10000句上已经明显超过了。
目前chain模型训练还没结束，10000h数据大约过了2遍，不到总进度的1/3，但估计再往后的提升不会太显著了。

MPE没有做完；

TDNN+CTC 10000小时16K
8K5000小时Chain
16K10000小时Chain

TDDN -> Context -> 类CTC

<pre>
如果比较如下结果，似乎chain的结果还好，毕竟output少了一半。

10000H 2048*7_12000 xEnt(965.mdl ) : 9.20 17.60
10000H 2048*7_6565 chain (2700.mdl) : 8.90 17.51

然而，因为chain的objective中是有区分性信息的，导致这一对比不是很合理。需要等MPE出来结果再看。

Chain 包含如下结构： single state + MMI
我们现在的triphone模型包含如下结构： 3 states + MPE

这意味着:
（1）Chain output 可以比较少
（2）Chain+MPE可能提高不很明显
（3） Chain缺少模型状态的精细结构，这些精细结构在大数据大模型时可能是有用的。

所以这里面有个权衡，对于上下文相关建模而言，在输出一定的前提下，是牺牲state来换取更多上下文建模(Chain)，还是牺牲一些上下文来描述精细结构 (triphone)。从现在的结果看，似乎是在小模型时，前者重要，而当输出可以很大时，再加入phone context可能已经不重要了，这时state的精细结构就有意义。这似乎可以得到结论，当我们有足够的数据和足够的计算资源的话，用triphone还是有意义。

之所以出现上面的问题，在于梦原用的Chain是基于TDNN，即用长的context来得到state condition，或者说，NN需要经过一系列网络从context里infer出state。这一方法看起来并不能特别好地描述信号的动态特性，因为对信号的发展过程缺少记忆性。这一记忆性在HMM里信靠状态转移矩阵进行累积，在LSTM里利用recurrent connection进行累积。这是为什么TDNN离开state，效果不明显的原因。

如果要想较大结构里描述精细结构，或者TDNN+ HMM state (triphone系统)，或者LSTM + CD phone。后者用LSTM来代替HMM,即end-to-end training。传统CTC用的是这一结构。

所以在我看来， LSTM + CD phone应该是最理想的结构，LSTM取代HMM的离散状态成为连续状态。如果能用Chain的objective，则应该足够好了。这就是LSTM的Chain model.

可以总结如下：
(1) 训练中在模型输出一定时，优先描述context，再描述state。在模型较大时，state必须描述。
(2) state描述可以用HMM，也可以用RNN(LSTM)，前者简单，后者精确。
(3) 当用LSTM描述状态时，网络输出不必考虑state。
(4) 训练时需要考虑alignment不确定性问题，CTC解决此问题。
(5) 训练时需要考虑训练目标和评价指标(WER)匹配，MMI/MPE解决此问题。
(6) 可以在训练时考虑CTC+MPE/MMI。可以逐步加（一般方法），可能会有问题，因为MPE又遇到不确定性，可以同时加。小汤说Chain是后者，我需要再确认。
(7) TDNN增加上下的context，有利于更多信息加入，部分解决state或context dependent的问题，但和LSTM/MPE/CTC等并不冲突，也没什么直接关系。
(8) TDNN + CD state 在大数据下看起来是最容易训练的方法，即是我们的state-of-the-art系统。

建议如下：
(1) 现在Chain model在大数据上遇到的瓶颈看起来是用的TDNN前端。应该改用LSTM前端以描述状态。
(2) LSTM对特征context不足，应结合TDNN
(3) LSTM不必特别多层，也不必所有gate都用上，只要能描述状态变化即可。
(4) 倾向构造这样的结构，底层是TDNN，高层是LSTM，LSTM只有一层即可，同时尽可能简化。
LSTM+TDNN+Chain大模型中加入状态的信息；一周
Lattice-Alignment

(5) TDNN + state + Chain objective或许会比TDNN+state后接MPE有所提高。或者，一个类似的CTC+MPE objective function.
</pre>

新松机器人：
接口

===TagModel===
*加重path或词边：组合词，lm中加重；晓明、小韩
:* 新词加重及添加

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；

===End-To-End/CTC===
Kaldi-nnet1, Kaldi-CTC, Kaldi-Chain and Eesen on WSJ. If GPU Parallel, then on grid-12 and grid-13.
mpe-2 means method that considering Transition instead of CctcTransition when mpe, while
mpe-1 means method that considering CctcTransition.
---------------------------------------------------------------------------------
model %WER (test_eval92) %WER (after MPE)
---------------------------------------------------------------------------------
kaldi/nnet1/dnn_2048_4(cd-dnn-hmm) 4.18
---------------------------------------------------------------------------------
kaldi/ctc/decode_bd_tgpr_plm0.15 8.01
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter1 7.78
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter2 __7.73__

Test CTC-mpe (considering CctcTransition) on aurora4.
---------------------------------------------------------------------------------
model %WER learning rate
---------------------------------------------------------------------------------
kaldi/ctc/decode_bd_tgpr_plm0.15 13.86
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter1 12.70 0.0002
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter2 12.28
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter3 12.43
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter4 12.34
---------------------------------------------------------------------------------

CTC MPE上已成功。
原理上：CTC+MMI = Chain

==粤语16K==
===声学模型===
已训练完成 130H

===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
69小时的（CER28%） FreeTalk
90小时的（CER27.5%）质检
190小时，73%

英文单词还没有加（英文的标音：用粤语的音素标）；
粤英文的模型，需要训练；
句子长，有两句，将CER拉下来了，分析这两句。

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

真实场景下的测试集？考勤机里面的数据整理出来。
考勤机Adaptation训练。

8个Phone和1个Tele的录音模型已训练完；
跨信道，阈值不一致；
需要解决跨信道的识别问题；

手机和固定电话，需要分开测试；
ubm256，需要加大；
组织一下数据，跑D-vector实验；

测试集，真实场景的

考勤系统，mic指定；
定制背景模型；

加入情绪，场景的分析，分类的分析；

将测试数据加入训练，看是否有提高？

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

端点检测，信噪比计算；
发音方式：坐着、站着

PLDA adaptation

Sinovoice-Weekly-status

2016-02-25T05:07:40Z

Yanglibo：

Sinovoice-2016-2-18

2016-02-18T07:03:30Z

Yanglibo：

==数据==

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

任务优先
覆盖优先

领域和口音或信道的覆盖性！！！
Darkknowledge方法
标注：听不懂的掠过；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
60h trained. no tag text to lm, CER 45%
discard english text;

*维语
已完成120小时；last train 50h; 目标200小时；
16K标注，灵云，180小时，收集验收；

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文

MPE的训练:
Condition: LM:1e-5/1e-9
test_8000ju test_10000ju
6000H 600*4_800 xEnt : 15.16 28.03
6000H 600*4_800 mpe : 12.09 23.51
6776H 1200*4_10000 mpe : 9.48 18.07

10000H 600*4_800 xEnt（迭代21轮） : 15.91
10000H 600*4_800 xEnt（迭代完成） : 15.56 26.71
10000H 2048*7_12000 xEnt(迭代1.7轮) : 10.12
10000H 2048*7_12000 xEnt(迭代2.6轮) : 9.73
10000H 2048*7_12000 xEnt(迭代3.8轮) : 9.51
10000H 2048*7_12000 xEnt(迭代5.1轮) : 9.53
10000H 2048*7_12000 xEnt(迭代6.0轮) : 9.41 17.75
10000H 2048*7_12000 xEnt(700.mdl ) : 9.35 17.71
10000H 2048*7_12000 xEnt(800.mdl ) : 9.27 17.57
10000H 2048*7_12000 xEnt(900.mdl ) : 9.20 17.51
10000H 2048*7_12000 xEnt(965.mdl ) : 9.20 17.60
10000H 2048*7_12000 200H mpe(2.mdl ) : 8.80 15.99
10000H 2048*7_12000 200H mpe(8.mdl ) : 8.71 15.91
10000H 2048*7_12000 1000H mpe(13.mdl) : 8.60 15.84

10000H 2048*7_12000 1000H mpe(13.mdl) : 8.60 15.84
10000H 2048*7_12000 1000H mpe(17.mdl) : 8.46 15.76
10000H 2048*7_12000 1000H mpe(26.mdl) : 8.47 15.71
10000H 2048*7_12000 1000H mpe(35.mdl) : 8.43 15.84
10000H 2048*7_12000 1000H mpe(42.mdl) : 8.40 15.87
10000H 2048*7_12000 1000H mpe(56.mdl) : 8.49 15.96

10000H 2048*7_6565 chain (2700.mdl) : 8.90 17.51

10000小时MPE，开跑，但是提升空间不大。

2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文信道、口音
华为V3信道压缩：4000小时，GMM

结果如下：
| | BJYD | JS2h |ShaanXi2h| ShanXi2h|huaweiFuCe|UnKnown2h|
| nnet1 1400h MPE | 22.49 | 19.81 | 19.63 | 21.90 | 16.72 | 22.00 |
| nnet1 4200h xEnt | 26.89 | 19.90 | 25.43 | 26.90 | 16.15 | 24.13 |
| nnet1 4200h MPE | 24.53 | 18.39 | 22.82 | 23.97 | 14.22 | 21.35 |

8k:
huaweiFuCe
nnet3_xEnt 7*2048+8393 : 14.61

chain 7*2048+6558 200.mdl: 17.83
chain 400.mdl: 17.09
chain 600.mdl: 18.13
chain 800.mdl: 19.05

在A01辽宁移动测试集上的实验结果：
dnn模型（mpe增量训练后）： 22.39
华为信道模型： 20.26
用辽宁移动数据在华为信道模型上做增量（6 mdl）： 18.16
用辽宁移动数据在华为信道模型上做增量（16 mdl）： 17.85

平安提高1个点；客户测试集提升3个点；
分析一下客户错误的原因？在LM上提升。是否有奇怪的噪声。

丢字问题：远端被识别为噪音。 sil_scale可以捞一些回来。
postscale乘法？指数？
找一个TestCase，怎么都调不回来的。（灵云输入法前面丢字）
16K的少些，8K的比较多；

===嵌入式===
* 10000h-chain 5*400+800 has been training.
* Dark-knowledge training scripts ready

16k 嵌入式模型最新结果如下：
-------------------------------------------------------------------------------
| nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE | chain |
test_8000ju | 16.12 | 11.31 | 14.89 | 12.77 | 11.74 |
test_10000ju | 28.83 | 23.82 | 27.43 | 25.05 | 22.35 |
-------------------------------------------------------------------------------
LM = 1e-5, 1e-9 biglm, beam = 13

-------------------------------------------------------------------------------
| nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE | chain |
test_8000ju | 16.12 | 11.31 | 14.89 | 12.77 | 11.10 |
test_10000ju | 28.83 | 23.82 | 27.43 | 25.05 | 21.33 |
-------------------------------------------------------------------------------

前4个模型结构是4*600+800，chain模型结构是5*400+800。
与nnet1_MPE相比，chain模型在8000ju上稍差，但在10000句上已经明显超过了。
目前chain模型训练还没结束，10000h数据大约过了2遍，不到总进度的1/3，但估计再往后的提升不会太显著了。

MPE没有做完；

TDNN+CTC 10000小时16K
8K5000小时Chain
16K10000小时Chain

TDDN -> Context -> 类CTC

<pre>
如果比较如下结果，似乎chain的结果还好，毕竟output少了一半。

10000H 2048*7_12000 xEnt(965.mdl ) : 9.20 17.60
10000H 2048*7_6565 chain (2700.mdl) : 8.90 17.51

然而，因为chain的objective中是有区分性信息的，导致这一对比不是很合理。需要等MPE出来结果再看。

Chain 包含如下结构： single state + MMI
我们现在的triphone模型包含如下结构： 3 states + MPE

这意味着:
（1）Chain output 可以比较少
（2）Chain+MPE可能提高不很明显
（3） Chain缺少模型状态的精细结构，这些精细结构在大数据大模型时可能是有用的。

所以这里面有个权衡，对于上下文相关建模而言，在输出一定的前提下，是牺牲state来换取更多上下文建模(Chain)，还是牺牲一些上下文来描述精细结构 (triphone)。从现在的结果看，似乎是在小模型时，前者重要，而当输出可以很大时，再加入phone context可能已经不重要了，这时state的精细结构就有意义。这似乎可以得到结论，当我们有足够的数据和足够的计算资源的话，用triphone还是有意义。

之所以出现上面的问题，在于梦原用的Chain是基于TDNN，即用长的context来得到state condition，或者说，NN需要经过一系列网络从context里infer出state。这一方法看起来并不能特别好地描述信号的动态特性，因为对信号的发展过程缺少记忆性。这一记忆性在HMM里信靠状态转移矩阵进行累积，在LSTM里利用recurrent connection进行累积。这是为什么TDNN离开state，效果不明显的原因。

如果要想较大结构里描述精细结构，或者TDNN+ HMM state (triphone系统)，或者LSTM + CD phone。后者用LSTM来代替HMM,即end-to-end training。传统CTC用的是这一结构。

所以在我看来， LSTM + CD phone应该是最理想的结构，LSTM取代HMM的离散状态成为连续状态。如果能用Chain的objective，则应该足够好了。这就是LSTM的Chain model.

可以总结如下：
(1) 训练中在模型输出一定时，优先描述context，再描述state。在模型较大时，state必须描述。
(2) state描述可以用HMM，也可以用RNN(LSTM)，前者简单，后者精确。
(3) 当用LSTM描述状态时，网络输出不必考虑state。
(4) 训练时需要考虑alignment不确定性问题，CTC解决此问题。
(5) 训练时需要考虑训练目标和评价指标(WER)匹配，MMI/MPE解决此问题。
(6) 可以在训练时考虑CTC+MPE/MMI。可以逐步加（一般方法），可能会有问题，因为MPE又遇到不确定性，可以同时加。小汤说Chain是后者，我需要再确认。
(7) TDNN增加上下的context，有利于更多信息加入，部分解决state或context dependent的问题，但和LSTM/MPE/CTC等并不冲突，也没什么直接关系。
(8) TDNN + CD state 在大数据下看起来是最容易训练的方法，即是我们的state-of-the-art系统。

建议如下：
(1) 现在Chain model在大数据上遇到的瓶颈看起来是用的TDNN前端。应该改用LSTM前端以描述状态。
(2) LSTM对特征context不足，应结合TDNN
(3) LSTM不必特别多层，也不必所有gate都用上，只要能描述状态变化即可。
(4) 倾向构造这样的结构，底层是TDNN，高层是LSTM，LSTM只有一层即可，同时尽可能简化。
LSTM+TDNN+Chain大模型中加入状态的信息；一周
Lattice-Alignment

(5) TDNN + state + Chain objective或许会比TDNN+state后接MPE有所提高。或者，一个类似的CTC+MPE objective function.
</pre>

新松机器人：
接口

===TagModel===
*加重path或词边：组合词，lm中加重；晓明、小韩
:* 新词加重及添加

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；

===End-To-End/CTC===
Kaldi-nnet1, Kaldi-CTC, Kaldi-Chain and Eesen on WSJ. If GPU Parallel, then on grid-12 and grid-13.
mpe-2 means method that considering Transition instead of CctcTransition when mpe, while
mpe-1 means method that considering CctcTransition.
---------------------------------------------------------------------------------
model %WER (test_eval92) %WER (after MPE)
---------------------------------------------------------------------------------
kaldi/nnet1/dnn_2048_4(cd-dnn-hmm) 4.18
---------------------------------------------------------------------------------
kaldi/ctc/decode_bd_tgpr_plm0.15 8.01
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter1 7.78
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter2 __7.73__

Test CTC-mpe (considering CctcTransition) on aurora4.
---------------------------------------------------------------------------------
model %WER learning rate
---------------------------------------------------------------------------------
kaldi/ctc/decode_bd_tgpr_plm0.15 13.86
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter1 12.70 0.0002
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter2 12.28
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter3 12.43
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter4 12.34
---------------------------------------------------------------------------------

CTC MPE上已成功。
原理上：CTC+MMI = Chain

==粤语16K==
===声学模型===
已训练完成 130H

===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
69小时的（CER28%） FreeTalk
90小时的（CER27.5%）质检
190小时，73%

英文单词还没有加（英文的标音：用粤语的音素标）；
粤英文的模型，需要训练；
句子长，有两句，将CER拉下来了，分析这两句。

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

真实场景下的测试集？考勤机里面的数据整理出来。
考勤机Adaptation训练。

8个Phone和1个Tele的录音模型已训练完；
跨信道，阈值不一致；
需要解决跨信道的识别问题；

手机和固定电话，需要分开测试；
ubm256，需要加大；
组织一下数据，跑D-vector实验；

测试集，真实场景的

考勤系统，mic指定；
定制背景模型；

加入情绪，场景的分析，分类的分析；

将测试数据加入训练，看是否有提高？

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

端点检测，信噪比计算；
发音方式：坐着、站着

PLDA adaptation

Sinovoice-2016-2-18

2016-02-18T05:11:35Z

==数据==

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
60h trained. no tag text to lm, CER 45%
discard english text;

*维语
已完成120小时；last train 50h;
16K标注，灵云，180小时，收集验收；

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文

MPE的训练:
Condition: LM:1e-5/1e-9
test_8000ju test_10000ju
6000H 600*4_800 xEnt : 15.16 28.03
6000H 600*4_800 mpe : 12.09 23.51
6776H 1200*4_10000 mpe : 9.48 18.07

10000H 600*4_800 xEnt（迭代21轮） : 15.91
10000H 600*4_800 xEnt（迭代完成） : 15.56 26.71
10000H 2048*7_12000 xEnt(迭代1.7轮) : 10.12
10000H 2048*7_12000 xEnt(迭代2.6轮) : 9.73
10000H 2048*7_12000 xEnt(迭代3.8轮) : 9.51
10000H 2048*7_12000 xEnt(迭代5.1轮) : 9.53
10000H 2048*7_12000 xEnt(迭代6.0轮) : 9.41 17.75
10000H 2048*7_12000 xEnt(700.mdl ) : 9.35 17.71
10000H 2048*7_12000 xEnt(800.mdl ) : 9.27 17.57
10000H 2048*7_12000 xEnt(900.mdl ) : 9.20 17.51
10000H 2048*7_12000 xEnt(965.mdl ) : 9.20 17.60
10000H 2048*7_12000 200H mpe(2.mdl ) : 8.80 15.99
10000H 2048*7_12000 200H mpe(8.mdl ) : 8.71 15.91
10000H 2048*7_12000 1000H mpe(13.mdl) : 8.60 15.84

10000H 2048*7_12000 1000H mpe(13.mdl) : 8.60 15.84
10000H 2048*7_12000 1000H mpe(17.mdl) : 8.46 15.76
10000H 2048*7_12000 1000H mpe(26.mdl) : 8.47 15.71
10000H 2048*7_12000 1000H mpe(35.mdl) : 8.43 15.84
10000H 2048*7_12000 1000H mpe(42.mdl) : 8.40 15.87
10000H 2048*7_12000 1000H mpe(56.mdl) : 8.49 15.96

10000H 2048*7_6565 chain (2700.mdl) : 8.90 17.51

10000小时MPE，开跑，但是提升空间不大。

2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文信道、口音
华为V3信道压缩：4000小时，GMM

结果如下：
| | BJYD | JS2h |ShaanXi2h| ShanXi2h|huaweiFuCe|UnKnown2h|
| nnet1 1400h MPE | 22.49 | 19.81 | 19.63 | 21.90 | 16.72 | 22.00 |
| nnet1 4200h xEnt | 26.89 | 19.90 | 25.43 | 26.90 | 16.15 | 24.13 |
| nnet1 4200h MPE | 24.53 | 18.39 | 22.82 | 23.97 | 14.22 | 21.35 |

8k:
huaweiFuCe
nnet3_xEnt 7*2048+8393 : 14.61

chain 7*2048+6558 200.mdl: 17.83
chain 400.mdl: 17.09
chain 600.mdl: 18.13
chain 800.mdl: 19.05

在A01辽宁移动测试集上的实验结果：
dnn模型（mpe增量训练后）： 22.39
华为信道模型： 20.26
用辽宁移动数据在华为信道模型上做增量（6 mdl）： 18.16
用辽宁移动数据在华为信道模型上做增量（16 mdl）： 17.85

平安提高1个点；客户测试集提升3个点；

===嵌入式===
* 10000h-chain 5*400+800 has been training.
* Dark-knowledge training scripts ready

16k 嵌入式模型最新结果如下：
-------------------------------------------------------------------------------
| nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE | chain |
test_8000ju | 16.12 | 11.31 | 14.89 | 12.77 | 11.74 |
test_10000ju | 28.83 | 23.82 | 27.43 | 25.05 | 22.35 |
-------------------------------------------------------------------------------
LM = 1e-5, 1e-9 biglm, beam = 13

-------------------------------------------------------------------------------
| nnet1_xEnt | nnet1_MPE | nnet3_xEnt | nnet3_MPE | chain |
test_8000ju | 16.12 | 11.31 | 14.89 | 12.77 | 11.10 |
test_10000ju | 28.83 | 23.82 | 27.43 | 25.05 | 21.33 |
-------------------------------------------------------------------------------

前4个模型结构是4*600+800，chain模型结构是5*400+800。
与nnet1_MPE相比，chain模型在8000ju上稍差，但在10000句上已经明显超过了。
目前chain模型训练还没结束，10000h数据大约过了2遍，不到总进度的1/3，但估计再往后的提升不会太显著了。

MPE没有做完；

TDNN+CTC 10000小时16K
8K5000小时Chain
16K10000小时Chain

TDDN -> Context -> 类CTC

<pre>
如果比较如下结果，似乎chain的结果还好，毕竟output少了一半。

10000H 2048*7_12000 xEnt(965.mdl ) : 9.20 17.60
10000H 2048*7_6565 chain (2700.mdl) : 8.90 17.51

然而，因为chain的objective中是有区分性信息的，导致这一对比不是很合理。需要等MPE出来结果再看。

Chain 包含如下结构： single state + MMI
我们现在的triphone模型包含如下结构： 3 states + MPE

这意味着:
（1）Chain output 可以比较少
（2）Chain+MPE可能提高不很明显
（3） Chain缺少模型状态的精细结构，这些精细结构在大数据大模型时可能是有用的。

所以这里面有个权衡，对于上下文相关建模而言，在输出一定的前提下，是牺牲state来换取更多上下文建模(Chain)，还是牺牲一些上下文来描述精细结构 (triphone)。从现在的结果看，似乎是在小模型时，前者重要，而当输出可以很大时，再加入phone context可能已经不重要了，这时state的精细结构就有意义。这似乎可以得到结论，当我们有足够的数据和足够的计算资源的话，用triphone还是有意义。

之所以出现上面的问题，在于梦原用的Chain是基于TDNN，即用长的context来得到state condition，或者说，NN需要经过一系列网络从context里infer出state。这一方法看起来并不能特别好地描述信号的动态特性，因为对信号的发展过程缺少记忆性。这一记忆性在HMM里信靠状态转移矩阵进行累积，在LSTM里利用recurrent connection进行累积。这是为什么TDNN离开state，效果不明显的原因。

如果要想较大结构里描述精细结构，或者TDNN+ HMM state (triphone系统)，或者LSTM + CD phone。后者用LSTM来代替HMM,即end-to-end training。传统CTC用的是这一结构。

所以在我看来， LSTM + CD phone应该是最理想的结构，LSTM取代HMM的离散状态成为连续状态。如果能用Chain的objective，则应该足够好了。这就是LSTM的Chain model.

可以总结如下：

(1) 训练中在模型输出一定时，优先描述context，再描述state。在模型较大时，state必须描述。
(2) state描述可以用HMM，也可以用RNN(LSTM)，前者简单，后者精确。
(3) 当用LSTM描述状态时，网络输出不必考虑state。
(4) 训练时需要考虑alignment不确定性问题，CTC解决此问题。
(5) 训练时需要考虑训练目标和评价指标(WER)匹配，MMI/MPE解决此问题。
(6) 可以在训练时考虑CTC+MPE/MMI。可以逐步加（一般方法），可能会有问题，因为MPE又遇到不确定性，可以同时加。小汤说Chain是后者，我需要再确认。
(7) TDNN增加上下的context，有利于更多信息加入，部分解决state或context dependent的问题，但和LSTM/MPE/CTC等并不冲突，也没什么直接关系。
(8) TDNN + CD state 在大数据下看起来是最容易训练的方法，即是我们的state-of-the-art系统。

建议如下：

(1) 现在Chain model在大数据上遇到的瓶颈看起来是用的TDNN前端。应该改用LSTM前端以描述状态。
(2) LSTM对特征context不足，应结合TDNN
(3) LSTM不必特别多层，也不必所有gate都用上，只要能描述状态变化即可。
(4) 倾向构造这样的结构，底层是TDNN，高层是LSTM，LSTM只有一层即可，同时尽可能简化。
(5) TDNN + state + Chain objective或许会比TDNN+state后接MPE有所提高。或者，一个类似的CTC+MPE objective function.
</pre>

新松：
Online
领域相关
基于字的通用语言模型：背景模型地图不要，对话要
巨大的通用LM

===TagModel===
*加重path或词边：组合词，lm中加重；晓明、小韩
:* 新词加重及添加

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；

===End-To-End/CTC===
Kaldi-nnet1, Kaldi-CTC, Kaldi-Chain and Eesen on WSJ. If GPU Parallel, then on grid-12 and grid-13.
mpe-2 means method that considering Transition instead of CctcTransition when mpe, while
mpe-1 means method that considering CctcTransition.
---------------------------------------------------------------------------------
model %WER (test_eval92) %WER (after MPE)
---------------------------------------------------------------------------------
kaldi/nnet1/dnn_2048_4(cd-dnn-hmm) 4.18
---------------------------------------------------------------------------------
kaldi/ctc/decode_bd_tgpr_plm0.15 8.01
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter1 7.78
kaldi/ctc/decode_bd_tgpr_plm0.15, mpe-2, iter2 __7.73__

Test CTC-mpe (considering CctcTransition) on aurora4.
---------------------------------------------------------------------------------
model %WER learning rate
---------------------------------------------------------------------------------
kaldi/ctc/decode_bd_tgpr_plm0.15 13.86
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter1 12.70 0.0002
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter2 12.28
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter3 12.43
kaldi/ctc/decode_bd_tgpr_plm0.15_mpe_iter4 12.34
---------------------------------------------------------------------------------

CTC MPE上已成功。

==粤语16K==
===声学模型===
已训练完成 130H

===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
69小时的（CER28%） FreeTalk
90小时的（CER27.5%）质检
之前测试集有问题
字面和英文加入，测试集有，训练现在没有；
粤语只训练最后一层；90小时单独训练模型的最后一层加到1400的最后一层；
LM差的比较远；
英文单词还没有加（英文的标音：用粤语的音素标）；
粤英文的模型，需要训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

8个Phone和1个Tele的录音模型已训练完；
跨信道，阈值不一致；
需要解决跨信道的识别问题；

手机和固定电话，需要分开测试；
ubm256，需要加大；
组织一下数据，跑D-vector实验；

测试集，真实场景的

考勤系统，mic指定；
定制背景模型；

加入情绪，场景的分析，分类的分析；

将测试数据加入训练，看是否有提高？

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

端点检测，信噪比计算；
发音方式：坐着、站着

PLDA adaptation

Sinovoice-Weekly-status

2016-02-18T05:02:01Z

Yanglibo：

Sinovoice-2016-2-2

2016-02-02T07:40:04Z

Yanglibo：

'''警告：'''“Sinovoice-2016-2-2”指向这里，但您没有足够的权限来访问它。

Sinovoice-2016-2-2

2016-02-02T06:47:52Z

'''警告：'''“Sinovoice-2016-2-2”指向这里，但您没有足够的权限来访问它。

Sinovoice-Weekly-status

2016-02-02T06:47:20Z

Yanglibo：

Sinovoice-2016-1-20

2016-01-20T07:27:57Z

Sinovoice-Weekly-status

2016-01-20T05:52:51Z

Yanglibo：

Sinovoice-2016-1-13

2016-01-13T06:30:10Z

Yanglibo：

Sinovoice-2016-1-13

2016-01-13T05:44:48Z

Yanglibo：以“==数据== *第三季度目标 ===语音数据=== *16K 灵云数据 10000小时实际语料的标注目标，已立项400小时的标注；语料从1000小时中...”为内容创建页面

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
60h trained. no tag text to lm, CER 45%
discard english text;

*维语
已完成120小时；last train 50h;
16K标注，灵云，180小时，收集验收；

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
训练第七轮；cer9.20； 900mdl/3500

拷贝一份，启动8个job；
原来的继续；进行MPE；
生成lattice，还没有开始跑；

MPE的训练:

生成lattice

2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文信道、口音
华为V3信道压缩：4000小时，GMM
分成了100份
识别率下降：下降1-2个点；网络结构增大；
MPE今天跑起来一个；用Context有问题的脚本先跑起来；

生成lattice已完成；
aliment，MPE中间会输出模型，测试识别率；6台机器；
4天一个Model；

MPE训练
-------------------------------------------------------------------------------------------------------------------------
AM / test | test_JS | test_Shanxi | test_Shaanxi | test_Unknown | test_BJYD | test_huaweiFuCe |
-------------------------------------------------------------------------------------------------------------------------
Baseline_xEnt | 19.90 | 26.90 | 25.43 | 24.13 | 26.89 | 16.15 |
Baseline_MPE | 18.39 | 23.97 | 22.82 | 21.35 | 24.53 | 14.22 |
-------------------------------------------------------------------------------------------------------------------------
nnet3_4*1200 | 22.44 | 28.31 | 26.59 | 25.10 | 26.57 | 18.93 |
-------------------------------------------------------------------------------------------------------------------------
nnet3_7*2048 | 20.06 | 24.86 | 23.08 | 21.33 | 22.40 | 14.61 |
-------------------------------------------------------------------------------------------------------------------------
nnet3_7*2048_mpe1 | 16.84 | 21.68 | 20.43 | 20.33 | 21.85 | 13.37 |
nnet3_7*2048_mpe5 | 16.67 | 21.65 | 20.52 | 19.94 | 21.77 | 12.66 |
nnet3_7*2048_mpe12| 17.75 | 23.79 | 22.06 | 20.18 | 25.16 | 12.77 |
-------------------------------------------------------------------------------------------------------------------------

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

小模型测试，cer20+；
bigLM的生成还有问题！

深度的影响更大，宽度相对较小；
sigmod，改为rectifier

MPE Contect(6)跑一个；xEnt Contect(-3 -2 -1 0 1 2 3)+MPE；
Darkknowledge一个；4*600*800 Nnet3的训练脚本；
5*600*800加深一层跑一个；

生成lattice，训练MPE，转格式专用空间太大，修改脚本，降低存储空间；
变差：从27变为30；
分100分，内部random；

MPE重新训练：
global shuffle：重新分组；
external lattice，加速，为MPE准备
每天晚上之前跑起来；

解码效率：
NNet3的产品化

===TagModel===
*加重path或词边：组合词，lm中加重；晓明、小韩
Path加重，修改fst；
测试加重“xx导演的巩俐演的”；
Word Vector：分堆加词表的15万；

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

人名识别不好，lm，人名的单字path加重？？？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；

===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。
小汤，目前已超过DNN，MPE：NET3已跑起来。
LSTM

训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice

96，实验室；92 8核GPU 16K，215 8K；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
69小时的（CER28%） FreeTalk
90小时的（CER27.5%）质检
之前测试集有问题
字面和英文加入，测试集有，训练现在没有；
粤语只训练最后一层；90小时单独训练模型的最后一层加到1400的最后一层；
LM差的比较远；
英文单词还没有加（英文的标音：用粤语的音素标）；
粤英文的模型，需要训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

8个Phone和1个Tele的录音模型已训练完，尚未测试完成；
<pre>
测试集 iv200_digital_8p1t_vox_8k_new_model iv200_digital_mobile_tele_vox_8k
20_people_same_device1 1.28205%, at threshold 0.541794 1.28205%, at threshold 0.468932
20_people_same_device2 1.25%, at threshold 0.564912 0%, at threshold 0.561153
20_people_same_device3 2.5%, at threshold 0.562019 1.25%, at threshold 0.565247
20_people_same_device4 1.25%, at threshold 0.632257 1.25%, at threshold 0.67539
20_people_diff_device 11.5044%, at threshold 0.412102 15.0442%, at threshold 0.191909
</pre>

手机和固定电话，需要分开测试；
ubm256，需要加大；
组织一下数据，跑D-vector实验；

考勤系统，mic指定；
定制背景模型；

加入情绪，场景的分析，分类的分析；

将测试数据加入训练，看是否有提高？

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

端点检测，信噪比计算；
发音方式：坐着、站着

PLDA adaptation

Sinovoice-Weekly-status

2016-01-13T05:44:18Z

Yanglibo：

Sinovoice-Weekly-status

2016-01-13T05:43:51Z

Yanglibo：

Sinovoice-2015-12-30

2015-12-30T06:37:04Z

Yanglibo：

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
60h trained. no tag text to lm, CER 45%
discard english text;

*维语
已完成120小时；last train 50h;
16K标注，灵云，180小时，收集验收；

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
训练第七轮；cer9.20； 900mdl/3500

拷贝一份，启动8个job；
原来的继续；进行MPE；
生成lattice，还没有开始跑；

MPE的训练:
Context的窗大(-10,+10)的时候不收敛。
小数据过拟合，大数据再看下结果；

2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文信道、口音
华为V3信道压缩：4000小时，GMM
分成了100份
识别率下降：下降1-2个点；网络结构增大；
MPE今天跑起来一个；用Context有问题的脚本先跑起来；

生成lattice已完成；
aliment，MPE中间会输出模型，测试识别率；6台机器；
4天一个Model；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

小模型测试，cer20+；
bigLM的生成还有问题！

深度的影响更大，宽度相对较小；
sigmod，改为rectifier

MPE Contect(6)跑一个；xEnt Contect(-3 -2 -1 0 1 2 3)+MPE；
Darkknowledge一个；4*600*800 Nnet3的训练脚本；
5*600*800加深一层跑一个；

生成lattice，训练MPE，转格式专用空间太大，修改脚本，降低存储空间；
变差：从27变为30；
分100分，内部random；

MPE重新训练：
global shuffle：重新分组；
external lattice，加速，为MPE准备
每天晚上之前跑起来；

解码效率：
NNet3的产品化

===TagModel===
*加重path或词边：组合词，lm中加重；晓明、小韩
Path加重，修改fst；
测试加重“xx导演的巩俐演的”；
Word Vector：分堆加词表的15万；

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

人名识别不好，lm，人名的单字path加重？？？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；

===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。
小汤，目前已超过DNN，MPE：NET3已跑起来。
LSTM

训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice

96，实验室；92 8核GPU 16K，215 8K；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
69小时的（CER28%） FreeTalk
90小时的（CER27.5%）质检
之前测试集有问题
字面和英文加入，测试集有，训练现在没有；
粤语只训练最后一层；90小时单独训练模型的最后一层加到1400的最后一层；
LM差的比较远；
英文单词还没有加（英文的标音：用粤语的音素标）；
粤英文的模型，需要训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

8个Phone和1个Tele的录音模型已训练完，尚未测试完成；
<pre>
测试集 iv200_digital_8p1t_vox_8k_new_model iv200_digital_mobile_tele_vox_8k
20_people_same_device1 1.28205%, at threshold 0.541794 1.28205%, at threshold 0.468932
20_people_same_device2 1.25%, at threshold 0.564912 0%, at threshold 0.561153
20_people_same_device3 2.5%, at threshold 0.562019 1.25%, at threshold 0.565247
20_people_same_device4 1.25%, at threshold 0.632257 1.25%, at threshold 0.67539
20_people_diff_device 11.5044%, at threshold 0.412102 15.0442%, at threshold 0.191909
</pre>

手机和固定电话，需要分开测试；
ubm256，需要加大；
组织一下数据，跑D-vector实验；

考勤系统，mic指定；
定制背景模型；

加入情绪，场景的分析，分类的分析；

将测试数据加入训练，看是否有提高？

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

端点检测，信噪比计算；
发音方式：坐着、站着

PLDA adaptation

Sinovoice-2015-12-30

2015-12-30T05:06:18Z

Yanglibo：

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
60h trained. no tag text to lm, CER 45%
discard english text;
已完成80小时。

*维语
已完成120小时；last train 50h;

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
训练第七轮；cer9.20； 900mdl/3500

拷贝一份，启动8个job；
原来的继续；进行MPE；

MPE的训练:
Context的窗大(-10,+10)的时候不收敛。
小数据过拟合，大数据再看下结果；

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：4000小时，GMM
2天，过了10遍；网络结构，
分成了100份
识别率下降：下降1-2个点；网络结构增大；
MPE今天跑起来一个；用Context有问题的脚本先跑起来；

生成lattice；
MPE中间会输出模型，测试识别率；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

小模型测试，cer20+；
bigLM的生成还有问题！

生成结果有乱码：已解决，依赖的软件包的编译问题。
识别率不稳定，变化比较大：测试一万句的测试集；
将测试集分成4块，识别率基本一致；
句子越长，识别率越高；

深度的影响更大，宽度相对较小；
sigmod，改为rectifier

MPE Contect(6)跑一个；xEnt Contect(-3 -2 -1 0 1 2 3)+MPE；
Darkknowledge一个；4*600*800 Nnet3的训练脚本；
5*600*800加深一层跑一个；

生成lattice，训练MPE，转格式专用空间太大，修改脚本，降低存储空间；

解码效率：
NNet3的产品化

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；
count和分词有关：lm中词重了；
词的长度不多，加到lm中，当做新词，lm的state就不merge；
*加重path或词边：组合词，lm中加重；晓明、小韩
测试加重“xx导演的巩俐演的”待测试。

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

*WordVector？基于词向量的新词加重。会训练WordVector，但是没有加入模型。
每个词的权重不一样（distance）。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

人名识别不好，lm，人名的单字path加重？？？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；

===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。
小汤，目前已超过DNN，还没有加MPE；NET3
LSTM

8K CTC 4000小时（8-10天）梦原
TDNN，效果不太好；TimeDelayDNN

训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice

96，实验室；92 8核GPU 16K，215 8K；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
69小时的（CER28%） FreeTalk
90小时的（CER27.5%）质检
之前测试集有问题
字面和英文加入，测试集有，训练现在没有；
粤语只训练最后一层；90小时单独训练模型的最后一层加到1400的最后一层；
LM差的比较远；
英文单词还没有加（英文的标音：用粤语的音素标）；
粤英文的模型，需要训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

8个Phone和1个Tele的录音模型已训练完，尚未测试完成；
<pre>
测试集 iv200_digital_8p1t_vox_8k_new_model iv200_digital_mobile_tele_vox_8k
20_people_same_device1 1.28205%, at threshold 0.541794 1.28205%, at threshold 0.468932
20_people_same_device2 1.25%, at threshold 0.564912 0%, at threshold 0.561153
20_people_same_device3 2.5%, at threshold 0.562019 1.25%, at threshold 0.565247
20_people_same_device4 1.25%, at threshold 0.632257 1.25%, at threshold 0.67539
20_people_diff_device 11.5044%, at threshold 0.412102 15.0442%, at threshold 0.191909
</pre>

考勤系统，mic指定；
定制背景模型；

加入情绪，场景的分析，分类的分析；

将测试数据加入训练，看是否有提高？

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

端点检测，信噪比计算；
发音方式：坐着、站着

PLDA adaptation

Sinovoice-2015-12-30

2015-12-30T05:04:20Z

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
60h trained. no tag text to lm, CER 45%
discard english text;
已完成80小时。

*维语
已完成120小时；last train 50h;

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
训练第七轮；cer9.20； 900mdl/3500

拷贝一份，启动8个job；
原来的继续；进行MPE；

MPE的训练:
Context的窗大(-10,+10)的时候不收敛。
小数据过拟合，大数据再看下结果；

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：4000小时，GMM
2天，过了10遍；网络结构，
分成了100份
识别率下降：下降1-2个点；网络结构增大；
MPE今天跑起来一个；用Context有问题的脚本先跑起来；

生成lattice；
MPE中间会输出模型，测试识别率；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

小模型测试，cer20+；
bigLM的生成还有问题！

生成结果有乱码：已解决，依赖的软件包的编译问题。
识别率不稳定，变化比较大：测试一万句的测试集；
将测试集分成4块，识别率基本一致；
句子越长，识别率越高；

深度的影响更大，宽度相对较小；
sigmod，改为rectifier

MPE Contect(6)跑一个；xEnt Contect(-3 -2 -1 0 1 2 3)+MPE；
Darkknowledge一个；4*600*800 Nnet3的训练脚本；
5*600*800加深一层跑一个；

生成lattice，训练MPE，转格式专用空间太大，修改脚本，降低存储空间；

解码效率：
NNet3的产品化

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；
count和分词有关：lm中词重了；
词的长度不多，加到lm中，当做新词，lm的state就不merge；
*加重path或词边：组合词，lm中加重；晓明、小韩
测试加重“xx导演的巩俐演的”待测试。

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

*WordVector？基于词向量的新词加重。会训练WordVector，但是没有加入模型。
每个词的权重不一样（distance）。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

人名识别不好，lm，人名的单字path加重？？？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；

===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。
小汤，目前已超过DNN，还没有加MPE；NET3
LSTM

8K CTC 4000小时（8-10天）梦原
TDNN，效果不太好；TimeDelayDNN

训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice

96，实验室；92 8核GPU 16K，215 8K；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
69小时的（CER28%） FreeTalk
90小时的（CER27.5%）质检
之前测试集有问题
字面和英文加入，测试集有，训练现在没有；
粤语只训练最后一层；90小时单独训练模型的最后一层加到1400的最后一层；
LM差的比较远；
英文单词还没有加（英文的标音：用粤语的音素标）；
粤英文的模型，需要训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

8个Phone和1个Tele的录音模型已训练完，尚未测试完成；

考勤系统，mic指定；
定制背景模型；

加入情绪，场景的分析，分类的分析；

将测试数据加入训练，看是否有提高？

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

端点检测，信噪比计算；
发音方式：坐着、站着

PLDA adaptation

Sinovoice-Weekly-status

2015-12-30T05:03:41Z

Yanglibo：

Sinovoice-2015-12-23

2015-12-23T05:57:40Z

Yanglibo：

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
60h trained. no tag text to lm, CER 45%
discard english text;
已完成80小时。

*维语
已完成120小时；last train 50h;

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
训练第七轮；cer9.20； 900mdl/3500

拷贝一份，启动8个job；
原来的继续；进行MPE；

MPE的训练:
Context的窗大(-10,+10)的时候不收敛。
小数据过拟合，大数据再看下结果；

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：4000小时，GMM
2天，过了10遍；网络结构，
分成了100份
识别率下降：下降1-2个点；网络结构增大；
MPE今天跑起来一个；用Context有问题的脚本先跑起来；

生成lattice；
MPE中间会输出模型，测试识别率；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

小模型测试，cer20+；
bigLM的生成还有问题！

生成结果有乱码：已解决，依赖的软件包的编译问题。
识别率不稳定，变化比较大：测试一万句的测试集；
将测试集分成4块，识别率基本一致；
句子越长，识别率越高；

深度的影响更大，宽度相对较小；
sigmod，改为rectifier

MPE Contect(6)跑一个；xEnt Contect(-3 -2 -1 0 1 2 3)+MPE；
Darkknowledge一个；4*600*800 Nnet3的训练脚本；
5*600*800加深一层跑一个；

生成lattice，训练MPE，转格式专用空间太大，修改脚本，降低存储空间；

解码效率：
NNet3的产品化

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；
count和分词有关：lm中词重了；
词的长度不多，加到lm中，当做新词，lm的state就不merge；
*加重path或词边：组合词，lm中加重；晓明、小韩
测试加重“xx导演的巩俐演的”待测试。

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

*WordVector？基于词向量的新词加重。会训练WordVector，但是没有加入模型。
每个词的权重不一样（distance）。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

人名识别不好，lm，人名的单字path加重？？？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；

===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。
CTC Kaldi版本，并行的算法完成，在1400h上跑并行。
小汤，目前已超过DNN，还没有加MPE；NET3
LSTM

8K CTC 4000小时（8-10天）梦原
TDNN，效果不太好；TimeDelayDNN

训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice

96，实验室；92 8核GPU 16K，215 8K；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
69小时的（CER28%） FreeTalk
90小时的（CER27.5%）质检
之前测试集有问题
字面和英文加入，测试集有，训练现在没有；
粤语只训练最后一层；90小时单独训练模型的最后一层加到1400的最后一层；
LM差的比较远；
英文单词还没有加（英文的标音：用粤语的音素标）；
粤英文的模型，需要训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

8个Phone和1个Tele的录音模型已训练完，尚未测试完成；

考勤系统，mic指定；
定制背景模型；

加入情绪，场景的分析，分类的分析；

将测试数据加入训练，看是否有提高？

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

端点检测，信噪比计算；
发音方式：坐着、站着

PLDA adaptation

Sinovoice-2015-12-23

2015-12-23T05:29:50Z

Sinovoice-Weekly-status

2015-12-23T05:29:26Z

Yanglibo：

Sinovoice-2015-12-16

2015-12-16T06:28:51Z

Sinovoice-Weekly-status

2015-12-16T05:40:04Z

Yanglibo：

Sinovoice-2015-12-09

2015-12-09T06:10:42Z

Yanglibo：

Sinovoice-2015-12-09

2015-12-09T06:00:34Z

Yanglibo：

Sinovoice-2015-12-09

2015-12-09T05:30:50Z

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
60h trained. no tag text to lm, CER 45%
discard english text;
已完成80小时。

*维语
已完成120小时；last train 50h;

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
GMM

<pre>
Nnet3 training on LARGE DATA:

8k:

8k:
Dataset = 4200h, LM = 1e-8, beam = 9
Baseline is pure-CN model, nnet3 models are multi-lingual models.

-------------------------------------------------------------------------------------------------------------------------
AM / test | test_JS | test_Shanxi | test_Shaanxi | test_Unknown | test_BJYD | test_huaweiFuCe |
-------------------------------------------------------------------------------------------------------------------------
Baseline_xEnt| 19.90 | 26.90 | 25.43 | 24.13 | 26.89 | 16.15 |
Baseline_MPE | 18.39 | 23.97 | 22.82 | 21.35 | 24.53 | 14.22 |
-------------------------------------------------------------------------------------------------------------------------
nnet3_4*1200 | 22.44 | 28.31 | 26.59 | 25.10 | 26.57 | 18.93 |
-------------------------------------------------------------------------------------------------------------------------
nnet3_7*2048 | 20.06 | 24.86 | 23.08 | 21.33 | 22.40 | 14.61 |
-------------------------------------------------------------------------------------------------------------------------

rt:
beam9: beam13:
nnet1_4*1200+7934: 0.45 (train212) nnet1_4*1200+7934: 1.2 (train212)
nnet3_4*1200+8393: 0.35 (train92) nnet3_4*1200+8393: 0.9 (train92)
nnet3_7*2048+8393: 0.8 (train92) nnet3_7*2048+8393: 1.2 (train92)

16k:
LM = 1e-7, beam = 13
Baseline is 6000h+776h mpe model.
nnet3 model is trained by 1700h+776h data.
--------------------------------------------------------------------------
AM / test | 1000ju_from_test_8000ju | 2000ju_from_test_10000ju |
--------------------------------------------------------------------------
6776h_mpe(baseline)| 10.05 | 21.16 |
--------------------------------------------------------------------------
nnet3_6*2000 | 9.56 | 20.94 |
--------------------------------------------------------------------------

rt:
beam13:
nnet1_4*1200+6761: 0.6-0.7 (train212)
nnet3_6*2000+6761: 0.7-0.8 (train212) 0.9-1.0 (queue)

MPE的训练

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：4000小时，GMM
2天，过了10遍；网络结构，
分成了100份
识别率下降：下降1-2个点；网络结构增大；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

小模型测试，cer20+；
bigLM的生成还有问题！
生成结果有乱码？和机器有关 lattice

解码效率：

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；
count和分词有关：lm中词重了；
词的长度不多，加到lm中，当做新词，lm的state就不merge；
*加重path或词边：组合词，lm中加重；晓明、小韩
测试加重“xx导演的巩俐演的”待测试。

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

*WordVector？基于词向量的新词加重。会训练WordVector，但是没有加入模型。
每个词的权重不一样（distance）。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

小数据集没有问题了，MPE的并行有问题；
在大数据集上训练验证。

单机完成；

一个月完成大模型的训练；

目前需要解决的：大约1个月，上线约需要3个月；
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3
CDphone ：搞定，效果还在验证中 h1clg

CTC Kaldi版本

96，实验室；92 8核GPU 16K，215 8K；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
60小时的，和30小时的（CER45%），没有变化，好了一点点；
CER：44%；
只训练最后一层，华为信道；只训练了声学，语言没有更新；
查错，找原因；语言模型训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

考勤系统，mic指定；
定制背景模型；

加入情绪，场景的分析，分类的分析；

将测试数据加入训练，看是否有提高？

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

端点检测，信噪比计算；
发音方式：坐着、站着

PLDA adaptation

Sinovoice-Weekly-status

2015-12-09T05:30:25Z

Yanglibo：

Sinovoice-2015-12-02

2015-12-02T06:27:30Z

Yanglibo：

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
60h trained. no tag text to lm, CER 45%
discard english text;
已完成80小时。

*维语
已完成120小时；last train 50h;

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
GMM

<pre>
Nnet3 training on LARGE DATA:

8k:

8k:
Dataset = 4200h, LM = 1e-8, beam = 9
Baseline is pure-CN model, nnet3 models are multi-lingual models.

-------------------------------------------------------------------------------------------------------------------------
AM / test | test_JS | test_Shanxi | test_Shaanxi | test_Unknown | test_BJYD | test_huaweiFuCe |
-------------------------------------------------------------------------------------------------------------------------
Baseline_xEnt| 19.90 | 26.90 | 25.43 | 24.13 | 26.89 | 16.15 |
Baseline_MPE | 18.39 | 23.97 | 22.82 | 21.35 | 24.53 | 14.22 |
-------------------------------------------------------------------------------------------------------------------------
nnet3_4*1200 | 22.44 | 28.31 | 26.59 | 25.10 | 26.57 | 18.93 |
-------------------------------------------------------------------------------------------------------------------------
nnet3_7*2048 | 20.06 | 24.86 | 23.08 | 21.33 | 22.40 | 14.61 |
-------------------------------------------------------------------------------------------------------------------------

rt:
beam9: beam13:
nnet1_4*1200+7934: 0.45 (train212) nnet1_4*1200+7934: 1.2 (train212)
nnet3_4*1200+8393: 0.35 (train92) nnet3_4*1200+8393: 0.9 (train92)
nnet3_7*2048+8393: 0.8 (train92) nnet3_7*2048+8393: 1.2 (train92)

16k:
LM = 1e-7, beam = 13
Baseline is 6000h+776h mpe model.
nnet3 model is trained by 1700h+776h data.
--------------------------------------------------------------------------
AM / test | 1000ju_from_test_8000ju | 2000ju_from_test_10000ju |
--------------------------------------------------------------------------
6776h_mpe(baseline)| 10.05 | 21.16 |
--------------------------------------------------------------------------
nnet3_6*2000 | 9.56 | 20.94 |
--------------------------------------------------------------------------

rt:
beam13:
nnet1_4*1200+6761: 0.6-0.7 (train212)
nnet3_6*2000+6761: 0.7-0.8 (train212) 0.9-1.0 (queue)

MPE的训练

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：4000小时，GMM
2天，过了10遍；网络结构，
分成了100份
识别率下降：下降1-2个点；网络结构增大；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

小模型测试，cer20+；
bigLM的生成还有问题！
生成结果有乱码？和机器有关 lattice

解码效率：

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；
count和分词有关：lm中词重了；
词的长度不多，加到lm中，当做新词，lm的state就不merge；
*加重path或词边：组合词，lm中加重；晓明、小韩
测试加重“xx导演的巩俐演的”待测试。

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

*WordVector？基于词向量的新词加重。会训练WordVector，但是没有加入模型。
每个词的权重不一样（distance）。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

小数据集没有问题了，MPE的并行有问题；
在大数据集上训练验证。

单机完成；

一个月完成大模型的训练；

目前需要解决的：大约1个月，上线约需要3个月；
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3
CDphone ：搞定，效果还在验证中 h1clg

CTC Kaldi版本

96，实验室；92 8核GPU 16K，215 8K；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
60小时的，和30小时的（CER45%），没有变化，好了一点点；
CER：44%；
只训练最后一层，华为信道；只训练了声学，语言没有更新；
查错，找原因；语言模型训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

考勤系统，mic指定；
定制背景模型；

加入情绪，场景的分析，分类的分析；

将测试数据加入训练，看是否有提高？

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

端点检测，信噪比计算；
发音方式：坐着、站着

PLDA adaptation

Sinovoice-2015-12-02

2015-12-02T05:39:21Z

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
60h trained. no tag text to lm, CER 45%
discard english text;
已完成80小时。

*维语
已完成120小时；last train 50h;

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
GMM
有卡的问题，卡在IO，100线
SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；

选：Rectifier
BigAM

分了200份
大模型的MPE

<pre>
Nnet3 training on LARGE DATA:

8k:
Dataset = 4200h, LM = 1e-8, beam = 9
Baseline is pure-CN model, nnet3 models are multi-lingual models.
nnet3 4*1200 is final model, while nnet3 7*2048 training is unfinished, the training process is about 40%.
-------------------------------------------------------------------------------------------------------------------------
AM / test | test_JS | test_Shanxi | test_Shaanxi | test_Unknown | test_BJYD | test_huaweiFuCe |
-------------------------------------------------------------------------------------------------------------------------
Baseline_xEnt| 19.90 | 26.90 | 25.43 | 24.13 | 26.89 | 16.15 |
Baseline_MPE | 18.39 | 23.97 | 22.82 | 21.35 | 24.53 | 14.22 |
-------------------------------------------------------------------------------------------------------------------------
nnet3_4*1200 | 22.44 | 28.31 | 26.59 | 25.10 | 26.57 | 18.93 |
-------------------------------------------------------------------------------------------------------------------------
nnet3_7*2048 | 20.18 | 25.35 | 23.40 | 21.55 | 23.22 | 14.77 |
-------------------------------------------------------------------------------------------------------------------------

rt:
beam9: beam13:
nnet1_4*1200+7934: 0.45 (train212) nnet1_4*1200+7934: 1.2 (train212)
nnet3_4*1200+8393: 0.35 (train92) nnet3_4*1200+8393: 0.9 (train92)
nnet3_7*2048+8393: 0.8 (train92) nnet3_7*2048+8393: 1.2 (train92)

16k:
LM = 1e-7, beam = 13
Baseline is 6000h+776h mpe model.
nnet3 model is trained by 1700h+776h data.
The training nnet3 training is unfinished, the training process is about 75%.
--------------------------------------------------------------------------
AM / test | 1000ju_from_test_8000ju | 2000ju_from_test_10000ju |
--------------------------------------------------------------------------
6776h_mpe(baseline)| 10.05 | 21.16 |
--------------------------------------------------------------------------
nnet3_6*2000 | 9.56 | 20.85 |
--------------------------------------------------------------------------

rt:
beam13:
nnet1_4*1200+6761: 0.6-0.7 (train212)
nnet3_6*2000+6761: 0.7-0.8 (train212) 0.9-1.0 (queue)
</pre>

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：4000小时，GMM
2天，过了10遍；网络结构，
分成了100份
识别率下降：下降1-2个点；网络结构增大；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

小模型测试，cer20+；
bigLM的生成还有问题！

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；
count和分词有关：lm中词重了；
词的长度不多，加到lm中，当做新词，lm的state就不merge；
*加重path或词边：组合词，lm中加重；晓明、小韩
测试加重“xx导演的巩俐演的”待测试。

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

*WordVector？基于词向量的新词加重。会训练WordVector，但是没有加入模型。
每个词的权重不一样（distance）。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

单机完成；

一个月完成大模型的训练；

目前需要解决的：大约1个月，上线约需要3个月；
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3
CDphone ：搞定，效果还在验证中 h1clg

CTC Kaldi版本

96，实验室；92 8核GPU 16K，215 8K；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
60小时的，和30小时的（CER45%），没有变化，好了一点点；
CER：44%；
只训练最后一层，华为信道；只训练了声学，语言没有更新；
查错，找原因；语言模型训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

考勤系统，mic指定；
定制背景模型；

加入情绪，场景的分析，分类的分析；

将测试数据加入训练，看是否有提高？

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

端点检测，信噪比计算；
发音方式：坐着、站着

PLDA adaptation

Sinovoice-Weekly-status

2015-12-02T05:38:55Z

Yanglibo：

Sinovoice-2015-11-25

2015-11-25T08:08:43Z

Yanglibo：

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
60h trained. no tag text to lm, CER 45%
discard english text;
已完成80小时。

*维语
已完成120小时；last train 50h;

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
GMM
有卡的问题，卡在IO，100线
SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；

选：Rectifier
BigAM

分了200份
大模型的MPE

<pre>
Nnet3 training on LARGE DATA:

8k:
Dataset = 4200h, LM = 1e-8, beam = 9
Baseline is pure-CN model, nnet3 models are multi-lingual models.
nnet3 4*1200 is final model, while nnet3 7*2048 training is unfinished, the training process is about 40%.
-------------------------------------------------------------------------------------------------------------------------
AM / test | test_JS | test_Shanxi | test_Shaanxi | test_Unknown | test_BJYD | test_huaweiFuCe |
-------------------------------------------------------------------------------------------------------------------------
Baseline_xEnt| 19.90 | 26.90 | 25.43 | 24.13 | 26.89 | 16.15 |
Baseline_MPE | 18.39 | 23.97 | 22.82 | 21.35 | 24.53 | 14.22 |
-------------------------------------------------------------------------------------------------------------------------
nnet3_4*1200 | 22.44 | 28.31 | 26.59 | 25.10 | 26.57 | 18.93 |
-------------------------------------------------------------------------------------------------------------------------
nnet3_7*2048 | 20.18 | 25.35 | 23.40 | 21.55 | 23.22 | 14.77 |
-------------------------------------------------------------------------------------------------------------------------

rt:
beam9: beam13:
nnet1_4*1200+7934: 0.45 (train212) nnet1_4*1200+7934: 1.2 (train212)
nnet3_4*1200+8393: 0.35 (train92) nnet3_4*1200+8393: 0.9 (train92)
nnet3_7*2048+8393: 0.8 (train92) nnet3_7*2048+8393: 1.2 (train92)

16k:
LM = 1e-7, beam = 13
Baseline is 6000h+776h mpe model.
nnet3 model is trained by 1700h+776h data.
The training nnet3 training is unfinished, the training process is about 75%.
--------------------------------------------------------------------------
AM / test | 1000ju_from_test_8000ju | 2000ju_from_test_10000ju |
--------------------------------------------------------------------------
6776h_mpe(baseline)| 10.05 | 21.16 |
--------------------------------------------------------------------------
nnet3_6*2000 | 9.56 | 20.85 |
--------------------------------------------------------------------------

rt:
beam13:
nnet1_4*1200+6761: 0.6-0.7 (train212)
nnet3_6*2000+6761: 0.7-0.8 (train212) 0.9-1.0 (queue)
</pre>

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：4000小时，GMM
2天，过了10遍；网络结构，
分成了100份
识别率下降：下降1-2个点；网络结构增大；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

小模型测试，cer20+；
bigLM的生成还有问题！

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；
count和分词有关：lm中词重了；
词的长度不多，加到lm中，当做新词，lm的state就不merge；
*加重path或词边：组合词，lm中加重；晓明、小韩
测试加重“xx导演的巩俐演的”待测试。

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

*WordVector？基于词向量的新词加重。会训练WordVector，但是没有加入模型。
每个词的权重不一样（distance）。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

单机完成；

一个月完成大模型的训练；

目前需要解决的：大约1个月，上线约需要3个月；
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3
CDphone ：搞定，效果还在验证中 h1clg

CTC Kaldi版本

96，实验室；92 8核GPU 16K，215 8K；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
60小时的，和30小时的（CER45%），没有变化，好了一点点；
CER：44%；
只训练最后一层，华为信道；只训练了声学，语言没有更新；
查错，找原因；语言模型训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

考勤系统，mic指定；
定制背景模型；

加入情绪，场景的分析，分类的分析；

将测试数据加入训练，看是否有提高？

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

端点检测，信噪比计算；
发音方式：坐着、站着

PLDA adaptation

Sinovoice-2015-11-25

2015-11-25T07:21:06Z

Yanglibo：

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
60h trained. no tag text to lm, CER 45%
discard english text;
已完成80小时。

*维语
已完成120小时；last train 50h;

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
GMM
有卡的问题，卡在IO，100线
SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；

选：Rectifier
BigAM

分了200份
大模型的MPE

<pre>
Nnet3 training on LARGE DATA:

8k:
Dataset = 4200h, LM = 1e-8, beam = 9
Baseline is pure-CN model, nnet3 models are multi-lingual models.
nnet3 4*1200 is final model, while nnet3 7*2048 training is unfinished, the training process is about 40%.
-------------------------------------------------------------------------------------------------------------------------
AM / test | test_JS | test_Shanxi | test_Shaanxi | test_Unknown | test_BJYD | test_huaweiFuCe |
-------------------------------------------------------------------------------------------------------------------------
Baseline_xEnt| 19.90 | 26.90 | 25.43 | 24.13 | 26.89 | 16.15 |
Baseline_MPE | 18.39 | 23.97 | 22.82 | 21.35 | 24.53 | 14.22 |
-------------------------------------------------------------------------------------------------------------------------
nnet3_4*1200 | 22.44 | 28.31 | 26.59 | 25.10 | 26.57 | 18.93 |
-------------------------------------------------------------------------------------------------------------------------
nnet3_7*2048 | 20.18 | 25.35 | 23.40 | 21.55 | 23.22 | 14.77 |
-------------------------------------------------------------------------------------------------------------------------

rt:
beam9: beam13:
nnet1_4*1200+7934: 0.45 (train212) nnet1_4*1200+7934: 1.2 (train212)
nnet3_4*1200+8393: 0.35 (train92) nnet3_4*1200+8393: 0.9 (train92)
nnet3_7*2048+8393: 0.8 (train92) nnet3_7*2048+8393: 1.2 (train92)

16k:
LM = 1e-7, beam = 13
Baseline is 6000h+776h mpe model.
nnet3 model is trained by 1700h+776h data.
The training nnet3 training is unfinished, the training process is about 75%.
--------------------------------------------------------------------------
AM / test | 1000ju_from_test_8000ju | 2000ju_from_test_10000ju |
--------------------------------------------------------------------------
6776h_mpe(baseline)| 10.05 | 21.16 |
--------------------------------------------------------------------------
nnet3_6*2000 | 9.56 | 20.85 |
--------------------------------------------------------------------------

rt:
beam13:
nnet1_4*1200+6761: 0.6-0.7 (train212)
nnet3_6*2000+6761: 0.7-0.8 (train212) 0.9-1.0 (queue)
</pre>

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：4000小时，GMM
2天，过了10遍；网络结构，
分成了100份
识别率下降：下降1-2个点；网络结构增大；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；
count和分词有关：lm中词重了；
词的长度不多，加到lm中，当做新词，lm的state就不merge；
*加重path或词边：组合词，lm中加重；晓明、小韩

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

*WordVector？基于词向量的新词加重。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

单机完成；

一个月完成大模型的训练；

目前需要解决的：大约1个月，上线约需要3个月；
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3
CDphone

CTC Kaldi版本

96，实验室；92 8核GPU 16K，215 8K；

==中英混识==
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。

一个声学+多个语言模型：
得分的可比性：

中文phone：
英文phone：

Mixture:silence分开
LanguageID?

中英单独识别：
两个解码：

原始模型，增强不行；
同一个模型，
旁边网络

解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；
40句完全对14句；4句+6句，剩下的不对；

中文、英文同时标注；
声学中英混，语言模型，用Tag加；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
60小时的，和30小时的（CER45%），没有变化，好了一点点；
CER：44%；
只训练最后一层，华为信道；只训练了声学，语言没有更新；
查错，找原因；语言模型训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

端点检测，信噪比计算；
发音方式：坐着、站着

PLDA adaptation

Sinovoice-2015-11-25

2015-11-25T04:49:26Z

Yanglibo：

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
已完成80小时。

*维语
已完成120小时；

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
GMM
有卡的问题，卡在IO，100线
SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；

选：Rectifier
BigAM

分了200份
大模型的MPE

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：4000小时，GMM
2天，过了10遍；网络结构，
分成了100份
识别率下降：下降1-2个点；网络结构增大；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；
count和分词有关：lm中词重了；
词的长度不多，加到lm中，当做新词，lm的state就不merge；
*加重path或词边：组合词，lm中加重；晓明、小韩

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

*WordVector？基于词向量的新词加重。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

单机完成；

一个月完成大模型的训练；

目前需要解决的：大约1个月，上线约需要3个月；
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3
CDphone

CTC Kaldi版本

96，实验室；92 8核GPU 16K，215 8K；

==中英混识==
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。

一个声学+多个语言模型：
得分的可比性：

中文phone：
英文phone：

Mixture:silence分开
LanguageID?

中英单独识别：
两个解码：

原始模型，增强不行；
同一个模型，
旁边网络

解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；
40句完全对14句；4句+6句，剩下的不对；

中文、英文同时标注；
声学中英混，语言模型，用Tag加；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
60小时的，和30小时的（CER45%），没有变化，好了一点点；
CER：44%；
只训练最后一层，华为信道；只训练了声学，语言没有更新；
查错，找原因；语言模型训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

端点检测，信噪比计算；
发音方式：坐着、站着

PLDA adaptation

Sinovoice-2015-11-25

2015-11-25T04:42:57Z

Yanglibo：

Sinovoice-2015-11-25

2015-11-25T04:32:26Z

Yanglibo：

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
已完成55.74小时。

*维语
已完成110小时；

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
GMM
有卡的问题，卡在IO，100线
SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；

选：Rectifier
BigAM

分了200份
大模型的MPE

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：4000小时，GMM
2天，过了10遍；网络结构，
分成了100份
识别率下降：下降1-2个点；网络结构增大；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；
count和分词有关：lm中词重了；
词的长度不多，加到lm中，当做新词，lm的state就不merge；
*加重path或词边：组合词，lm中加重；晓明、小韩

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

*WordVector？基于词向量的新词加重。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

单机完成；

一个月完成大模型的训练；

目前需要解决的：大约1个月，上线约需要3个月；
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3
CDphone

CTC Kaldi版本

96，实验室；92 8核GPU 16K，215 8K；

==中英混识==
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。

一个声学+多个语言模型：
得分的可比性：

中文phone：
英文phone：

Mixture:silence分开
LanguageID?

中英单独识别：
两个解码：

原始模型，增强不行；
同一个模型，
旁边网络

解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；
40句完全对14句；4句+6句，剩下的不对；

中文、英文同时标注；
声学中英混，语言模型，用Tag加；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
60小时的，和30小时的（CER45%），没有变化，好了一点点；
CER：44%；
只训练最后一层，华为信道；只训练了声学，语言没有更新；
查错，找原因；语言模型训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

信道适应？
端点检测
Mic信道
背景噪音

PLDA adaptation

Sinovoice-2015-11-25

2015-11-25T04:29:28Z

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
已完成55.74小时。

*维语
已完成110小时；

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
GMM
有卡的问题，卡在IO，100线
SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；

选：Rectifier
BigAM

分了200份
大模型的MPE

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：4000小时，GMM
2天，过了10遍；网络结构，
分成了100份
识别率下降：下降1-2个点；网络结构增大；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；
count和分词有关：lm中词重了；
词的长度不多，加到lm中，当做新词，lm的state就不merge；
*加重path或词边：组合词，lm中加重；晓明、小韩

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

*WordVector？基于词向量的新词加重。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

单机完成；

一个月完成大模型的训练；

目前需要解决的：大约1个月，上线约需要3个月；
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3
CDphone

CTC Kaldi版本

96，实验室；92 8核GPU 16K，215 8K；

==中英混识==
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。

一个声学+多个语言模型：
得分的可比性：

中文phone：
英文phone：

Mixture:silence分开
LanguageID?

中英单独识别：
两个解码：

原始模型，增强不行；
同一个模型，
旁边网络

解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；
40句完全对14句；4句+6句，剩下的不对；

中文、英文同时标注；
声学中英混，语言模型，用Tag加；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
60小时的，和30小时的（CER45%），没有变化，好了一点点；
CER：44%；
只训练最后一层，华为信道；只训练了声学，语言没有更新；
查错，找原因；语言模型训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

端点检测
Mic信道
背景噪音

PLDA adaptation
GMM个数256调整成128，ivector：200调100；
<pre>
16K IV模型
串长等错误率EER 参考阈值
6 1.08% 0.561605
8 0.45% 0.577476
16K IV数字模型
串长等错误率EER 参考阈值
6 1.01% 0.564655
8 0.45% 0.591134

8K IV模型
串长等错误率EER 参考阈值
6 4.43% 0.5007
8 1.66% 0.56881
8K IV数字模型
串长等错误率EER 参考阈值
6 4.14% 0.5849
8 1.55% 0.6039

</pre>

周四中午论文学习：13:00；
周一下午项目：15:00；

Sinovoice-Weekly-status

2015-11-25T04:28:59Z

Yanglibo：

Sinovoice-2015-11-18

2015-11-18T06:26:05Z

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
已完成55.74小时。

*维语
已完成110小时；

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
GMM
有卡的问题，卡在IO，100线
SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；

选：Rectifier
BigAM

分了200份
大模型的MPE

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：4000小时，GMM
2天，过了10遍；网络结构，
分成了100份
识别率下降：下降1-2个点；网络结构增大；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；
count和分词有关：lm中词重了；
词的长度不多，加到lm中，当做新词，lm的state就不merge；
*加重path或词边：组合词，lm中加重；晓明、小韩

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

*WordVector？基于词向量的新词加重。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

单机完成；

一个月完成大模型的训练；

目前需要解决的：大约1个月，上线约需要3个月；
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3
CDphone

CTC Kaldi版本

96，实验室；92 8核GPU 16K，215 8K；

==中英混识==
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。

一个声学+多个语言模型：
得分的可比性：

中文phone：
英文phone：

Mixture:silence分开
LanguageID?

中英单独识别：
两个解码：

原始模型，增强不行；
同一个模型，
旁边网络

解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；
40句完全对14句；4句+6句，剩下的不对；

中文、英文同时标注；
声学中英混，语言模型，用Tag加；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
60小时的，和30小时的（CER45%），没有变化，好了一点点；
CER：44%；
只训练最后一层，华为信道；只训练了声学，语言没有更新；
查错，找原因；语言模型训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

端点检测
Mic信道
背景噪音

PLDA adaptation
GMM个数256调整成128，ivector：200调100；
<pre>
16K IV模型
串长等错误率EER 参考阈值
6 1.08% 0.561605
8 0.45% 0.577476
16K IV数字模型
串长等错误率EER 参考阈值
6 1.01% 0.564655
8 0.45% 0.591134

8K IV模型
串长等错误率EER 参考阈值
6 4.43% 0.5007
8 1.66% 0.56881
8K IV数字模型
串长等错误率EER 参考阈值
6 4.14% 0.5849
8 1.55% 0.6039

</pre>

周四中午论文学习：13:00；
周一下午项目：15:00；

Sinovoice-Weekly-status

2015-11-18T05:29:52Z

Yanglibo：

Sinovoice-2015-11-11

2015-11-11T06:45:12Z

Yanglibo：

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
已完成55.74小时。

*维语
已完成110小时；

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
GMM
有卡的问题，卡在IO，100线
SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；

选一个：TDNN，Rectifier，PNorm
RT相同，看那个更好；
BigAM

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：4000小时，GMM

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；
count和分词有关：lm中词重了；
词的长度不多，加到lm中，当做新词，lm的state就不merge；
加重path或词边：组合词，lm中加重；晓明、小韩

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

WordVector？基于词向量的新词加重。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
---------------------------------------------------------
model WER(%)
3-gram LM 5-gram LM traning time
---------------------------------------------------------
dnn 21.00 20.47
---------------------------------------------------------
train_phn_ly4_c320_lr0.00004(iter1) 37.18 36.69
train_phn_ly4_c320_lr0.00004(iter3) 28.55 25.80
train_phn_ly4_c320_lr0.00004(iter4) 24.35 23.74
train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79
train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

目前需要解决的：
并行：解决了慢的问题，多分了几个流；
CDphone

96，实验室；92 8核GPU 16K，215 8K；

==中英混识==
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。

一个声学+多个语言模型：
得分的可比性：

中文phone：
英文phone：

Mixture:silence分开
LanguageID?

中英单独识别：
两个解码：

原始模型，增强不行；
同一个模型，
旁边网络

Multi Task：
对Target分成两部分（语音、说话人），对英文的增强；
pdf monophone
初步进行试验。

解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；
40句完全对14句；4句+6句，剩下的不对；

中文、英文同时标注；
声学中英混，语言模型，用Tag加；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
*目标 WER:>65%
===声学模型===
*需要标注语料，正在招标注员、验收员，进行招聘；"
*语言模型 "语言模型训练完了，测试结果：
8k模型：字错误率22.0
测试集采用的是海天润声给的样本数据，从16k转8k。"

用实际语料标注的8K测试，CER：88%；
声学和语言模型，均不匹配；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

端点检测
Mic信道
背景噪音

PLDA adaptation
GMM个数256调整成128，ivector：200调100；
<pre>
16K IV模型
串长等错误率EER 参考阈值
6 1.08% 0.561605
8 0.45% 0.577476
16K IV数字模型
串长等错误率EER 参考阈值
6 1.01% 0.564655
8 0.45% 0.591134

8K IV模型
串长等错误率EER 参考阈值
6 4.43% 0.5007
8 1.66% 0.56881
8K IV数字模型
串长等错误率EER 参考阈值
6 4.14% 0.5849
8 1.55% 0.6039

</pre>

周四中午论文学习：13:00；
周一下午项目：15:00；

Sinovoice-2015-11-11

2015-11-11T06:39:41Z

Yanglibo：

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
已完成55.74小时。

*维语
已完成110小时；

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
GMM
有卡的问题，卡在IO，100线
SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：4000小时，GMM

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；
count和分词有关：lm中词重了；
词的长度不多，加到lm中，当做新词，lm的state就不merge；
加重path或词边：组合词，lm中加重；晓明、小韩

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

WordVector？基于词向量的新词加重。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
---------------------------------------------------------
model WER(%)
3-gram LM 5-gram LM traning time
---------------------------------------------------------
dnn 21.00 20.47
---------------------------------------------------------
train_phn_ly4_c320_lr0.00004(iter1) 37.18 36.69
train_phn_ly4_c320_lr0.00004(iter3) 28.55 25.80
train_phn_ly4_c320_lr0.00004(iter4) 24.35 23.74
train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79
train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

目前需要解决的：
并行：解决了慢的问题，多分了几个流；
CDphone

96，实验室；92 8核GPU 16K，215 8K；

==中英混识==
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。

一个声学+多个语言模型：
得分的可比性：

中文phone：
英文phone：

Mixture:silence分开
LanguageID?

中英单独识别：
两个解码：

原始模型，增强不行；
同一个模型，
旁边网络

Multi Task：
对Target分成两部分（语音、说话人），对英文的增强；
pdf monophone
初步进行试验。

解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；
40句完全对14句；4句+6句，剩下的不对；

中文、英文同时标注；
声学中英混，语言模型，用Tag加；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
*目标 WER:>65%
===声学模型===
*需要标注语料，正在招标注员、验收员，进行招聘；"
*语言模型 "语言模型训练完了，测试结果：
8k模型：字错误率22.0
测试集采用的是海天润声给的样本数据，从16k转8k。"

用实际语料标注的8K测试，CER：88%；
声学和语言模型，均不匹配；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

端点检测
Mic信道
背景噪音

PLDA adaptation
GMM个数256调整成128，ivector：200调100；
<pre>
16K IV模型
串长等错误率EER 参考阈值
6 1.08% 0.561605
8 0.45% 0.577476
16K IV数字模型
串长等错误率EER 参考阈值
6 1.01% 0.564655
8 0.45% 0.591134

8K IV模型
串长等错误率EER 参考阈值
6 4.43% 0.5007
8 1.66% 0.56881
8K IV数字模型
串长等错误率EER 参考阈值
6 4.14% 0.5849
8 1.55% 0.6039

</pre>

周四中午论文学习：13:00；
周一下午项目：15:00；

Sinovoice-2015-11-11

2015-11-11T05:00:03Z

Yanglibo：

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
已完成55.74小时。

*维语
已完成110小时；

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：中文英文语料已处理完，中英混还在处理中；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
8000->800 需要调整pdf对应关系；
4层600*800
之勇已提供训练脚本；
晓明准备搭建环境还是训练;

> 整理了一下之前的结果，600_800模型比大模型差一点多。
> 之前好像是记错了，是600_800 + 小语言模型是88%左右，加大语言模型时差的不多。
问题是：如果server模型已经是93.5%，Embedded模型是92.5%，即便DarkKnowledge能
有很大改进，也只能是93%左右吧？
这样不能看出有多少优势啊？
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

WordVector？基于词向量的新词加重。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
<pre>
Template tag include the word in the test
句式 Tag种类 Video数量 Name数量 Factor 测试集 WER
38 2 282 792 -1 xiaomi_my_templete 0.0034
38 2 282 792 -2 xiaomi_my_templete 0.0034
38 2 282 792 1 xiaomi_my_templete 0.0034
38 2 111754 132549 -1 xiaomi_my_templete 0.044
38 2 1W 1W -1 xiaomi_my_templete 0.064
38 2 1W+1W 1W+1W -1 xiaomi_my_templete 0.068
55 2 1W 1W -1 Xiaomi_Ttag 0.030

Splice corpus include the word in the test
句式 Tag种类 Video数量 Name数量测试集 WER
38 2 1W 1W xiaomi_my_templete 0.037
38 2 1W+1W 1W+1W xiaomi_my_templete 0.027
55 2 1W 1W Xiaomi_Ttag 0.228

勤威模型两个测试结果：
测试集模型 nion_factor WER
Qw_select Templatetag 0.0810529961898
Qw_select Templatetag+arpa -1 0.125389677866
Qw_select Templatetag+arpa -3 0.128853481122
Qw_select Templatetag+arpa -5 0.140284031867
Qw_select arpa 0.234933237099

测试集模型 Union_factor WER
Qw_all Templatetag 0.376478607803
Qw_all Templatetag+arpa -1 0.154577168291
Qw_all arpa 0.220990647731
</pre>
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
---------------------------------------------------------
model WER(%)
3-gram LM 5-gram LM traning time
---------------------------------------------------------
dnn 21.00 20.47
---------------------------------------------------------
train_phn_ly4_c320_lr0.00004(iter1) 37.18 36.69
train_phn_ly4_c320_lr0.00004(iter3) 28.55 25.80
train_phn_ly4_c320_lr0.00004(iter4) 24.35 23.74
train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79
train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

目前需要解决的：
并行；
CDphone

96，实验室；92 8核GPU 16K，215 8K；

==中英混识==
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。

一个声学+多个语言模型：
得分的可比性：

中文phone：
英文phone：

Mixture:silence分开
LanguageID?

中英单独识别：
两个解码：

原始模型，增强不行；
同一个模型，
旁边网络

Multi Task：
对Target分成两部分（语音、说话人），对英文的增强；
pdf monophone
初步进行试验。

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
*目标 WER:>65%
===声学模型===
*需要标注语料，正在招标注员、验收员，进行招聘；"
*语言模型 "语言模型训练完了，测试结果：
8k模型：字错误率22.0
测试集采用的是海天润声给的样本数据，从16k转8k。"

用实际语料标注的8K测试，CER：88%；
声学和语言模型，均不匹配；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

端点检测
Mic信道
背景噪音

<pre>
16K IV模型
串长等错误率EER 参考阈值
6 1.08% 0.561605
8 0.45% 0.577476
16K IV数字模型
串长等错误率EER 参考阈值
6 1.01% 0.564655
8 0.45% 0.591134

8K IV模型
串长等错误率EER 参考阈值
6 4.43% 0.5007
8 1.66% 0.56881
8K IV数字模型
串长等错误率EER 参考阈值
6 4.14% 0.5849
8 1.55% 0.6039

</pre>

Sinovoice-2015-11-11

2015-11-11T03:33:36Z

Yanglibo：

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
已完成55.74小时。

*维语
已完成110小时；

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：中文英文语料已处理完，中英混还在处理中；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
8000->800 需要调整pdf对应关系；
4层600*800
之勇已提供训练脚本；
晓明准备搭建环境还是训练;

> 整理了一下之前的结果，600_800模型比大模型差一点多。
> 之前好像是记错了，是600_800 + 小语言模型是88%左右，加大语言模型时差的不多。
问题是：如果server模型已经是93.5%，Embedded模型是92.5%，即便DarkKnowledge能
有很大改进，也只能是93%左右吧？
这样不能看出有多少优势啊？
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

WordVector？基于词向量的新词加重。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
<pre>
Template tag include the word in the test
句式 Tag种类 Video数量 Name数量 Factor 测试集 WER
38 2 282 792 -1 xiaomi_my_templete 0.0034
38 2 282 792 -2 xiaomi_my_templete 0.0034
38 2 282 792 1 xiaomi_my_templete 0.0034
38 2 111754 132549 -1 xiaomi_my_templete 0.044
38 2 1W 1W -1 xiaomi_my_templete 0.064
38 2 1W+1W 1W+1W -1 xiaomi_my_templete 0.068
55 2 1W 1W -1 Xiaomi_Ttag 0.030

Splice corpus include the word in the test
句式 Tag种类 Video数量 Name数量测试集 WER
38 2 1W 1W xiaomi_my_templete 0.037
38 2 1W+1W 1W+1W xiaomi_my_templete 0.027
55 2 1W 1W Xiaomi_Ttag 0.228

勤威模型两个测试结果：
测试集模型 nion_factor WER
Qw_select Templatetag 0.0810529961898
Qw_select Templatetag+arpa -1 0.125389677866
Qw_select Templatetag+arpa -3 0.128853481122
Qw_select Templatetag+arpa -5 0.140284031867
Qw_select arpa 0.234933237099

测试集模型 Union_factor WER
Qw_all Templatetag 0.376478607803
Qw_all Templatetag+arpa -1 0.154577168291
Qw_all arpa 0.220990647731
</pre>
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
---------------------------------------------------------
model WER(%)
3-gram LM 5-gram LM traning time
---------------------------------------------------------
dnn 21.00 20.47
---------------------------------------------------------
train_phn_ly4_c320_lr0.00004(iter1) 37.18 36.69
train_phn_ly4_c320_lr0.00004(iter3) 28.55 25.80
train_phn_ly4_c320_lr0.00004(iter4) 24.35 23.74
train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79
train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

目前需要解决的：
并行；
CDphone

96，实验室；92 8核GPU 16K，215 8K；

==中英混识==
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。

一个声学+多个语言模型：
得分的可比性：

中文phone：
英文phone：

Mixture:silence分开
LanguageID?

中英单独识别：
两个解码：

原始模型，增强不行；
同一个模型，
旁边网络

Multi Task：
对Target分成两部分（语音、说话人），对英文的增强；
pdf monophone
初步进行试验。

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
*目标 WER:>65%
===声学模型===
*需要标注语料，正在招标注员、验收员，进行招聘；"
*语言模型 "语言模型训练完了，测试结果：
8k模型：字错误率22.0
测试集采用的是海天润声给的样本数据，从16k转8k。"

用实际语料标注的8K测试，CER：88%；
声学和语言模型，均不匹配；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

端点检测
Mic信道
背景噪音

Sinovoice-2015-11-11

2015-11-11T03:29:13Z

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
粤语已标注45小时，本周能达到50小时，训练50小时增量模型；
？要达到75%的目标，大概需要多少语料？训练方法上是否有改进之处？
夹有英文。

*维语
已标注完成62小时，一个星期出不了1个小时;
可以先结一次。
语音标注、维语的语义理解，2年

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：中文英文语料已处理完，中英混还在处理中；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
8000->800 需要调整pdf对应关系；
4层600*800
之勇已提供训练脚本；
晓明准备搭建环境还是训练;

> 整理了一下之前的结果，600_800模型比大模型差一点多。
> 之前好像是记错了，是600_800 + 小语言模型是88%左右，加大语言模型时差的不多。
问题是：如果server模型已经是93.5%，Embedded模型是92.5%，即便DarkKnowledge能
有很大改进，也只能是93%左右吧？
这样不能看出有多少优势啊？
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

WordVector？基于词向量的新词加重。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
<pre>
Template tag include the word in the test
句式 Tag种类 Video数量 Name数量 Factor 测试集 WER
38 2 282 792 -1 xiaomi_my_templete 0.0034
38 2 282 792 -2 xiaomi_my_templete 0.0034
38 2 282 792 1 xiaomi_my_templete 0.0034
38 2 111754 132549 -1 xiaomi_my_templete 0.044
38 2 1W 1W -1 xiaomi_my_templete 0.064
38 2 1W+1W 1W+1W -1 xiaomi_my_templete 0.068
55 2 1W 1W -1 Xiaomi_Ttag 0.030

Splice corpus include the word in the test
句式 Tag种类 Video数量 Name数量测试集 WER
38 2 1W 1W xiaomi_my_templete 0.037
38 2 1W+1W 1W+1W xiaomi_my_templete 0.027
55 2 1W 1W Xiaomi_Ttag 0.228

勤威模型两个测试结果：
测试集模型 nion_factor WER
Qw_select Templatetag 0.0810529961898
Qw_select Templatetag+arpa -1 0.125389677866
Qw_select Templatetag+arpa -3 0.128853481122
Qw_select Templatetag+arpa -5 0.140284031867
Qw_select arpa 0.234933237099

测试集模型 Union_factor WER
Qw_all Templatetag 0.376478607803
Qw_all Templatetag+arpa -1 0.154577168291
Qw_all arpa 0.220990647731
</pre>
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
---------------------------------------------------------
model WER(%)
3-gram LM 5-gram LM traning time
---------------------------------------------------------
dnn 21.00 20.47
---------------------------------------------------------
train_phn_ly4_c320_lr0.00004(iter1) 37.18 36.69
train_phn_ly4_c320_lr0.00004(iter3) 28.55 25.80
train_phn_ly4_c320_lr0.00004(iter4) 24.35 23.74
train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79
train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

目前需要解决的：
并行；
CDphone

96，实验室；92 8核GPU 16K，215 8K；

==中英混识==
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。

一个声学+多个语言模型：
得分的可比性：

中文phone：
英文phone：

Mixture:silence分开
LanguageID?

中英单独识别：
两个解码：

原始模型，增强不行；
同一个模型，
旁边网络

Multi Task：
对Target分成两部分（语音、说话人），对英文的增强；
pdf monophone
初步进行试验。

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
*目标 WER:>65%
===声学模型===
*需要标注语料，正在招标注员、验收员，进行招聘；"
*语言模型 "语言模型训练完了，测试结果：
8k模型：字错误率22.0
测试集采用的是海天润声给的样本数据，从16k转8k。"

用实际语料标注的8K测试，CER：88%；
声学和语言模型，均不匹配；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

端点检测
Mic信道
背景噪音

Sinovoice-Weekly-status

2015-11-11T03:28:51Z

Yanglibo：

Sinovoice-2015-11-05

2015-11-05T03:04:16Z

Yanglibo：/* 声纹识别 */

Sinovoice-2015-11-05

2015-11-05T02:54:45Z

Yanglibo：

Sinovoice-2015-11-05

2015-11-05T02:37:36Z

Yanglibo：

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
粤语已标注45小时，本周能达到50小时，训练50小时增量模型；
？要达到75%的目标，大概需要多少语料？训练方法上是否有改进之处？
夹有英文。

*维语
已标注完成62小时，一个星期出不了1个小时;
可以先结一次。
语音标注、维语的语义理解，2年

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：中文英文语料已处理完，中英混还在处理中；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
8000->800 需要调整pdf对应关系；
4层600*800
之勇已提供训练脚本；
晓明准备搭建环境还是训练;

> 整理了一下之前的结果，600_800模型比大模型差一点多。
> 之前好像是记错了，是600_800 + 小语言模型是88%左右，加大语言模型时差的不多。
问题是：如果server模型已经是93.5%，Embedded模型是92.5%，即便DarkKnowledge能
有很大改进，也只能是93%左右吧？
这样不能看出有多少优势啊？
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

WordVector？基于词向量的新词加重。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
<pre>
Template tag include the word in the test
句式 Tag种类 Video数量 Name数量 Factor 测试集 WER
38 2 282 792 -1 xiaomi_my_templete 0.0034
38 2 282 792 -2 xiaomi_my_templete 0.0034
38 2 282 792 1 xiaomi_my_templete 0.0034
38 2 111754 132549 -1 xiaomi_my_templete 0.044
38 2 1W 1W -1 xiaomi_my_templete 0.064
38 2 1W+1W 1W+1W -1 xiaomi_my_templete 0.068
55 2 1W 1W -1 Xiaomi_Ttag 0.030

Splice corpus include the word in the test
句式 Tag种类 Video数量 Name数量测试集 WER
38 2 1W 1W xiaomi_my_templete 0.037
38 2 1W+1W 1W+1W xiaomi_my_templete 0.027
55 2 1W 1W Xiaomi_Ttag 0.228

勤威模型两个测试结果：
测试集模型 nion_factor WER
Qw_select Templatetag 0.0810529961898
Qw_select Templatetag+arpa -1 0.125389677866
Qw_select Templatetag+arpa -3 0.128853481122
Qw_select Templatetag+arpa -5 0.140284031867
Qw_select arpa 0.234933237099

测试集模型 Union_factor WER
Qw_all Templatetag 0.376478607803
Qw_all Templatetag+arpa -1 0.154577168291
Qw_all arpa 0.220990647731
</pre>
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
---------------------------------------------------------
model WER(%)
3-gram LM 5-gram LM traning time
---------------------------------------------------------
dnn 21.00 20.47
---------------------------------------------------------
train_phn_ly4_c320_lr0.00004(iter1) 37.18 36.69
train_phn_ly4_c320_lr0.00004(iter3) 28.55 25.80
train_phn_ly4_c320_lr0.00004(iter4) 24.35 23.74
train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79
train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

目前需要解决的：
并行；
CDphone

96，实验室；92 8核GPU 16K，215 8K；

==中英混识==
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。

一个声学+多个语言模型：
得分的可比性：

中文phone：
英文phone：

Mixture:silence分开
LanguageID?

中英单独识别：
两个解码：

原始模型，增强不行；
同一个模型，
旁边网络

Multi Task：
对Target分成两部分（语音、说话人），对英文的增强；
pdf monophone
初步进行试验。

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
*目标 WER:>65%
===声学模型===
*需要标注语料，正在招标注员、验收员，进行招聘；"
*语言模型 "语言模型训练完了，测试结果：
8k模型：字错误率22.0
测试集采用的是海天润声给的样本数据，从16k转8k。"

用实际语料标注的8K测试，CER：88%；
声学和语言模型，均不匹配；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？