Yanglibo：以“==数据== 第三季度目标 ===语音数据=== 16K 灵云数据 10000小时实际语料的标注目标，已立项400小时的标注；语料从1000小时中...”为内容创建页面

2015-11-18T06:26:05Z

以“==数据== *第三季度目标 ===语音数据=== *16K 灵云数据 10000小时实际语料的标注目标，已立项400小时的标注；语料从1000小时中...”为内容创建页面

新页面

==数据==
*第三季度目标
===语音数据===

*16K 灵云数据
10000小时实际语料的标注目标，已立项400小时的标注；
语料从1000小时中，通过ASR打分，取出中间的400小时；

*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%
已完成55.74小时。

*维语
已完成110小时；

===大模型===
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文
数据已处理完，提参数中；DNN 92上跑；
pdf：10000 8000中文 2000英文
GMM
有卡的问题，卡在IO，100线
SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；

选：Rectifier
BigAM

分了200份
大模型的MPE

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音
华为V3信道压缩：4000小时，GMM
2天，过了10遍；网络结构，
分成了100份
识别率下降：下降1-2个点；网络结构增大；

===嵌入式===
DarkKnowledge训练；小网络学习大网络，学的会更准，目标函数会更平滑一些；
rectifier
4层600*800
DarkKnowledge先不训练。
10000从头训练，nnet3 rectifier 4层600*800

===TagModel===
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；
路径走完，但是也错了，需要查一下晓明
count：只留两个，不分词，merge可能首外面影响；
count和分词有关：lm中词重了；
词的长度不多，加到lm中，当做新词，lm的state就不merge；
*加重path或词边：组合词，lm中加重；晓明、小韩

如果加很多新词，需要找到合适的Context。之勇、晓明
张艺谋：替换姜文合适，但是替换屠呦呦不合适。

*WordVector？基于词向量的新词加重。
计算PPL的，如果太低的词，就不要加了。
加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明
做了几个试验：
1）加几百个词，两个的效果基本一致；
2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：
LM和TagModel的合并fst, union，不是compose。晓明
测试集：句式在Tag中

*识别后处理
已知道这个词错了，可以处理。不知时，还需要处理？

===勤威项目===
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；
省市路，分词，句式：tag的方法来做。晓明
需要测试集，数据中心14日标完。

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector，传给服务器；
===RNN===
LSTM不稳定，和End-to-End Merge，

*End-to-End算法，描述上下文不强，将stat去掉；
On 1400h Chinese data, raid96.
已找到MPE的训练方法，正在训练；
MPE有个初步结果，提高0.4个点；
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；
没有状态；

CTC 单因子，context dependent to independe
End-to-End = CTC + CIphone
End-to-End + MPE已做完

单机完成；

一个月完成大模型的训练；

目前需要解决的：大约1个月，上线约需要3个月；
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3
CDphone

CTC Kaldi版本

96，实验室；92 8核GPU 16K，215 8K；

==中英混识==
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。

一个声学+多个语言模型：
得分的可比性：

中文phone：
英文phone：

Mixture:silence分开
LanguageID?

中英单独识别：
两个解码：

原始模型，增强不行；
同一个模型，
旁边网络

解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；
40句完全对14句；4句+6句，剩下的不对；

中文、英文同时标注；
声学中英混，语言模型，用Tag加；

==粤语16K==
===声学模型===
已训练完成 130H
===语言模型===
下载语料，训练模型，PPL：1000+
16K模型：字错误率21.78

==粤语8K==
60小时的，和30小时的（CER45%），没有变化，好了一点点；
CER：44%；
只训练最后一层，华为信道；只训练了声学，语言没有更新；
查错，找原因；语言模型训练；

==维语8K==
===声学模型===
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
===语言模型===
和新疆大学调试：公司Word；实验室
35H标注文本数据已提供实验室处理；
toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型：
model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

==声纹识别==
* 数字串模型训练正在采集数字串语音数据，预期本月内完成；
* 聚类分类算法基于Affinity距离的算法研究
* D-Vector
* 短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。
之前录得语料，独立人只有100人；
16K的找到一个1200人的数据，从中挑选；
8K的采购；但是音量小，是否会有影响?

使用条件的问题：
音量的影响？
背景噪音：如大厅中，人声噪杂的影响？

端点检测
Mic信道
背景噪音

PLDA adaptation
GMM个数256调整成128，ivector：200调100；
<pre>
16K IV模型
串长等错误率EER 参考阈值
6 1.08% 0.561605
8 0.45% 0.577476
16K IV数字模型
串长等错误率EER 参考阈值
6 1.01% 0.564655
8 0.45% 0.591134

8K IV模型
串长等错误率EER 参考阈值
6 4.43% 0.5007
8 1.66% 0.56881
8K IV数字模型
串长等错误率EER 参考阈值
6 4.14% 0.5849
8 1.55% 0.6039

</pre>

周四中午论文学习：13:00；
周一下午项目：15:00；

Sinovoice-2015-11-18 - 版本历史

Yanglibo：以“==数据== *第三季度目标 ===语音数据=== *16K 灵云数据 10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中...”为内容创建页面

Yanglibo：以“==数据== 第三季度目标 ===语音数据=== 16K 灵云数据 10000小时实际语料的标注目标，已立项400小时的标注；语料从1000小时中...”为内容创建页面