<?xml version="1.0"?>
<?xml-stylesheet type="text/css" href="http://index.cslt.org/mediawiki/skins/common/feed.css?303"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-cn">
		<id>http://index.cslt.org/mediawiki/index.php?action=history&amp;feed=atom&amp;title=Sinovoice-2015-11-18</id>
		<title>Sinovoice-2015-11-18 - 版本历史</title>
		<link rel="self" type="application/atom+xml" href="http://index.cslt.org/mediawiki/index.php?action=history&amp;feed=atom&amp;title=Sinovoice-2015-11-18"/>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php?title=Sinovoice-2015-11-18&amp;action=history"/>
		<updated>2026-04-13T16:04:23Z</updated>
		<subtitle>本wiki的该页面的版本历史</subtitle>
		<generator>MediaWiki 1.23.3</generator>

	<entry>
		<id>http://index.cslt.org/mediawiki/index.php?title=Sinovoice-2015-11-18&amp;diff=17587&amp;oldid=prev</id>
		<title>Yanglibo：以“==数据== *第三季度目标 ===语音数据===  *16K 灵云数据  10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中...”为内容创建页面</title>
		<link rel="alternate" type="text/html" href="http://index.cslt.org/mediawiki/index.php?title=Sinovoice-2015-11-18&amp;diff=17587&amp;oldid=prev"/>
				<updated>2015-11-18T06:26:05Z</updated>
		
		<summary type="html">&lt;p&gt;以“==数据== *第三季度目标 ===语音数据===  *16K 灵云数据  10000小时实际语料的标注目标，已立项400小时的标注； 语料从1000小时中...”为内容创建页面&lt;/p&gt;
&lt;p&gt;&lt;b&gt;新页面&lt;/b&gt;&lt;/p&gt;&lt;div&gt;==数据==&lt;br /&gt;
*第三季度目标&lt;br /&gt;
===语音数据===&lt;br /&gt;
&lt;br /&gt;
*16K 灵云数据 &lt;br /&gt;
10000小时实际语料的标注目标，已立项400小时的标注；&lt;br /&gt;
语料从1000小时中，通过ASR打分，取出中间的400小时；&lt;br /&gt;
&lt;br /&gt;
*粤语标注了一个测试集，增量9小时，CER：54%；30h,50%&lt;br /&gt;
已完成55.74小时。&lt;br /&gt;
&lt;br /&gt;
*维语&lt;br /&gt;
已完成110小时；&lt;br /&gt;
&lt;br /&gt;
===大模型===&lt;br /&gt;
1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000  rectifier 保留英文&lt;br /&gt;
   数据已处理完，提参数中；DNN 92上跑；&lt;br /&gt;
   pdf：10000 8000中文 2000英文&lt;br /&gt;
   GMM&lt;br /&gt;
   有卡的问题，卡在IO，100线&lt;br /&gt;
   SCP，ark文件，按照机器号命名，分到不同的机器，本地读取；&lt;br /&gt;
&lt;br /&gt;
   选：Rectifier&lt;br /&gt;
   BigAM&lt;br /&gt;
&lt;br /&gt;
   分了200份&lt;br /&gt;
   大模型的MPE&lt;br /&gt;
&lt;br /&gt;
2）8K 领域模型，领域通用：设备 4层1200x8000   信道、口音&lt;br /&gt;
   华为V3信道压缩：4000小时，GMM&lt;br /&gt;
   2天，过了10遍；网络结构，&lt;br /&gt;
   分成了100份&lt;br /&gt;
   识别率下降：下降1-2个点；网络结构增大；&lt;br /&gt;
&lt;br /&gt;
===嵌入式===&lt;br /&gt;
   DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；&lt;br /&gt;
   rectifier&lt;br /&gt;
   4层600*800&lt;br /&gt;
   DarkKnowledge先不训练。&lt;br /&gt;
   10000从头训练，nnet3 rectifier 4层600*800&lt;br /&gt;
&lt;br /&gt;
===TagModel===&lt;br /&gt;
Weight大，没有出来，路径不一样，路径的整体分值导致不一致；&lt;br /&gt;
路径走完，但是也错了，需要查一下                                   晓明&lt;br /&gt;
count：只留两个，不分词，merge可能首外面影响；&lt;br /&gt;
    count和分词有关：lm中词重了；&lt;br /&gt;
    词的长度不多，加到lm中，当做新词，lm的state就不merge；&lt;br /&gt;
    *加重path或词边：组合词，lm中加重；                             晓明、小韩&lt;br /&gt;
&lt;br /&gt;
如果加很多新词，需要找到合适的Context。                            之勇、晓明&lt;br /&gt;
张艺谋：替换姜文合适，但是替换屠呦呦不合适。&lt;br /&gt;
&lt;br /&gt;
    *WordVector？基于词向量的新词加重。&lt;br /&gt;
    计算PPL的，如果太低的词，就不要加了。&lt;br /&gt;
    加重点词和关注的词。老词（词表中已有的）加重；&lt;br /&gt;
&lt;br /&gt;
语料中超过5词，就可以使用。&lt;br /&gt;
&lt;br /&gt;
拼语料和Tag的效果验证比较                                          晓明&lt;br /&gt;
    做了几个试验：&lt;br /&gt;
    1）加几百个词，两个的效果基本一致；&lt;br /&gt;
    2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；&lt;br /&gt;
&lt;br /&gt;
小米的测试结果：&lt;br /&gt;
LM和TagModel的合并fst, union，不是compose。                         晓明&lt;br /&gt;
测试集：句式在Tag中&lt;br /&gt;
&lt;br /&gt;
*识别后处理&lt;br /&gt;
已知道这个词错了，可以处理。不知时，还需要处理？&lt;br /&gt;
&lt;br /&gt;
===勤威项目===&lt;br /&gt;
*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；&lt;br /&gt;
省市路，分词，句式：tag的方法来做。                 晓明&lt;br /&gt;
需要测试集，数据中心14日标完。&lt;br /&gt;
&lt;br /&gt;
===语音自适应===&lt;br /&gt;
针对个人的&lt;br /&gt;
能提高2~3%(基数CER约10%)&lt;br /&gt;
客户端提取ivector，传给服务器；&lt;br /&gt;
===RNN===&lt;br /&gt;
LSTM不稳定，和End-to-End Merge，&lt;br /&gt;
&lt;br /&gt;
*End-to-End算法，描述上下文不强，将stat去掉；&lt;br /&gt;
On 1400h Chinese data, raid96.&lt;br /&gt;
已找到MPE的训练方法，正在训练；&lt;br /&gt;
MPE有个初步结果，提高0.4个点；&lt;br /&gt;
MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；&lt;br /&gt;
没有状态；&lt;br /&gt;
&lt;br /&gt;
CTC 单因子，context dependent to independe&lt;br /&gt;
End-to-End = CTC + CIphone&lt;br /&gt;
End-to-End + MPE已做完&lt;br /&gt;
&lt;br /&gt;
单机完成；&lt;br /&gt;
&lt;br /&gt;
一个月完成大模型的训练；&lt;br /&gt;
&lt;br /&gt;
目前需要解决的：大约1个月，上线约需要3个月；&lt;br /&gt;
并行：解决了慢的问题，多分了几个流；CTC到Kaldi的Net3&lt;br /&gt;
CDphone&lt;br /&gt;
&lt;br /&gt;
CTC Kaldi版本&lt;br /&gt;
&lt;br /&gt;
96，实验室；92 8核GPU 16K，215 8K；&lt;br /&gt;
&lt;br /&gt;
==中英混识==         &lt;br /&gt;
声学模型用中英混训练，语言模型使用中文，嵌入英文单词；&lt;br /&gt;
方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。&lt;br /&gt;
&lt;br /&gt;
一个声学+多个语言模型：&lt;br /&gt;
得分的可比性：&lt;br /&gt;
&lt;br /&gt;
中文phone：&lt;br /&gt;
英文phone：&lt;br /&gt;
&lt;br /&gt;
Mixture:silence分开&lt;br /&gt;
LanguageID?&lt;br /&gt;
&lt;br /&gt;
中英单独识别：&lt;br /&gt;
两个解码：&lt;br /&gt;
&lt;br /&gt;
原始模型，增强不行；&lt;br /&gt;
同一个模型，&lt;br /&gt;
旁边网络&lt;br /&gt;
&lt;br /&gt;
解码，中文标，出不来，英文标，但是会吃中文；Tag的Position找的不对；QQ密码，从微信换成银行卡，不吃中文；&lt;br /&gt;
40句完全对14句；4句+6句，剩下的不对；&lt;br /&gt;
&lt;br /&gt;
中文、英文同时标注；&lt;br /&gt;
声学中英混，语言模型，用Tag加；&lt;br /&gt;
&lt;br /&gt;
==粤语16K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练完成 130H&lt;br /&gt;
===语言模型===&lt;br /&gt;
下载语料，训练模型，PPL：1000+&lt;br /&gt;
16K模型：字错误率21.78&lt;br /&gt;
&lt;br /&gt;
==粤语8K==&lt;br /&gt;
60小时的，和30小时的（CER45%），没有变化，好了一点点；&lt;br /&gt;
CER：44%；&lt;br /&gt;
只训练最后一层，华为信道；只训练了声学，语言没有更新；&lt;br /&gt;
查错，找原因；语言模型训练；&lt;br /&gt;
                   &lt;br /&gt;
==维语8K==&lt;br /&gt;
===声学模型===&lt;br /&gt;
已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；&lt;br /&gt;
===语言模型===&lt;br /&gt;
和新疆大学调试：公司Word；实验室&lt;br /&gt;
35H标注文本数据已提供实验室处理；&lt;br /&gt;
toolkit做完了，维语句子转成monphone串；&lt;br /&gt;
&lt;br /&gt;
发布了一个维语模型，需要识别标注语料，发布的是word模型：&lt;br /&gt;
model_35h_20150828 CER:0.419693683925&lt;br /&gt;
&lt;br /&gt;
导出64小时，声学和语言模型进行优化。&lt;br /&gt;
&lt;br /&gt;
==声纹识别==&lt;br /&gt;
* 数字串模型训练 正在采集数字串语音数据，预期本月内完成；&lt;br /&gt;
* 聚类分类算法 基于Affinity距离的算法研究&lt;br /&gt;
* D-Vector&lt;br /&gt;
* 短语音的识别：&lt;br /&gt;
&lt;br /&gt;
数字模型：单独训练，ivector和plda需要用数字需要训练。&lt;br /&gt;
之前录得语料，独立人只有100人；&lt;br /&gt;
16K的找到一个1200人的数据，从中挑选；&lt;br /&gt;
8K的采购；但是音量小，是否会有影响?&lt;br /&gt;
&lt;br /&gt;
使用条件的问题：&lt;br /&gt;
  音量的影响？&lt;br /&gt;
  背景噪音：如大厅中，人声噪杂的影响？&lt;br /&gt;
&lt;br /&gt;
端点检测&lt;br /&gt;
Mic信道&lt;br /&gt;
背景噪音&lt;br /&gt;
&lt;br /&gt;
PLDA adaptation&lt;br /&gt;
GMM个数256调整成128，ivector：200调100；&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
16K IV模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	1.08%	0.561605&lt;br /&gt;
8	0.45%	0.577476&lt;br /&gt;
16K IV数字模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	1.01%	0.564655&lt;br /&gt;
8	0.45%	0.591134&lt;br /&gt;
&lt;br /&gt;
8K IV模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	4.43%	0.5007&lt;br /&gt;
8	1.66%	0.56881&lt;br /&gt;
8K IV数字模型&lt;br /&gt;
串长	等错误率EER	参考阈值&lt;br /&gt;
6	4.14%	0.5849&lt;br /&gt;
8	1.55%	0.6039&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
周四中午论文学习：13:00；&lt;br /&gt;
周一下午项目：15:00；&lt;/div&gt;</summary>
		<author><name>Yanglibo</name></author>	</entry>

	</feed>