“Sinovoice-2015-11-11”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
第17行: 第17行:
 
   数据已处理完,提参数中;DNN 92上跑;
 
   数据已处理完,提参数中;DNN 92上跑;
 
   pdf:10000 8000中文 2000英文
 
   pdf:10000 8000中文 2000英文
 +
  GMM
 +
  有卡的问题,卡在IO,100线
 +
  SCP,ark文件,按照机器号命名,分到不同的机器,本地读取;
  
 
2)8K 领域模型,领域通用:设备 4层1200x8000  信道、口音
 
2)8K 领域模型,领域通用:设备 4层1200x8000  信道、口音
   华为V3信道压缩:中文英文语料已处理完,中英混还在处理中;
+
   华为V3信道压缩:4000小时,GMM
 
+
  
 
===嵌入式===
 
===嵌入式===
 
   DarkKnowledge训练; 小网络学习大网络,学的会更准,目标函数会更平滑一些;
 
   DarkKnowledge训练; 小网络学习大网络,学的会更准,目标函数会更平滑一些;
 
   rectifier
 
   rectifier
  8000->800 需要调整pdf对应关系;
 
 
   4层600*800
 
   4层600*800
   之勇已提供训练脚本;
+
   DarkKnowledge先不训练。
   晓明准备搭建环境还是训练;
+
   10000从头训练,nnet3 rectifier 4层600*800
 
+
> 整理了一下之前的结果,600_800模型比大模型差一点多。
+
> 之前好像是记错了,是600_800 + 小语言模型是88%左右,加大语言模型时差的不多。
+
  问题是:如果server模型已经是93.5%,Embedded模型是92.5%,即便DarkKnowledge能
+
  有很大改进,也只能是93%左右吧?
+
  这样不能看出有多少优势啊?
+
  DarkKnowledge先不训练。
+
  10000从头训练,nnet3 rectifier 4层600*800
+
  
 
===TagModel===
 
===TagModel===
第42行: 第35行:
 
路径走完,但是也错了,需要查一下                                  晓明
 
路径走完,但是也错了,需要查一下                                  晓明
 
count:只留两个,不分词,merge可能首外面影响;
 
count:只留两个,不分词,merge可能首外面影响;
 +
    count和分词有关:lm中词重了;
 +
    词的长度不多,加到lm中,当做新词,lm的state就不merge;
 +
    加重path或词边:组合词,lm中加重;                            晓明、小韩
  
 
如果加很多新词,需要找到合适的Context。                            之勇、晓明
 
如果加很多新词,需要找到合适的Context。                            之勇、晓明
 
张艺谋:替换姜文合适,但是替换屠呦呦不合适。
 
张艺谋:替换姜文合适,但是替换屠呦呦不合适。
  
WordVector?基于词向量的新词加重。
+
    WordVector?基于词向量的新词加重。
 
     计算PPL的,如果太低的词,就不要加了。
 
     计算PPL的,如果太低的词,就不要加了。
 
     加重点词和关注的词。老词(词表中已有的)加重;
 
     加重点词和关注的词。老词(词表中已有的)加重;
第58行: 第54行:
  
 
小米的测试结果:
 
小米的测试结果:
<pre>
 
Template tag include the word in the test
 
句式 Tag种类 Video数量 Name数量 Factor 测试集                 WER
 
38 2 282            792            -1 xiaomi_my_templete  0.0034
 
38 2 282            792            -2 xiaomi_my_templete  0.0034
 
38 2 282            792            1 xiaomi_my_templete  0.0034
 
38 2 111754          132549          -1 xiaomi_my_templete  0.044
 
38 2 1W              1W              -1 xiaomi_my_templete  0.064
 
38 2 1W+1W          1W+1W  -1 xiaomi_my_templete                 0.068
 
55 2 1W              1W              -1 Xiaomi_Ttag              0.030
 
 
Splice corpus include the word in the test
 
句式 Tag种类 Video数量 Name数量   测试集             WER
 
38 2 1W 1W xiaomi_my_templete       0.037
 
38 2 1W+1W 1W+1W xiaomi_my_templete         0.027
 
55 2 1W 1W Xiaomi_Ttag         0.228
 
 
勤威模型两个测试结果:
 
测试集         模型       nion_factor    WER
 
Qw_select      Templatetag                                        0.0810529961898
 
Qw_select      Templatetag+arpa -1 0.125389677866
 
Qw_select      Templatetag+arpa -3 0.128853481122
 
Qw_select      Templatetag+arpa -5 0.140284031867
 
Qw_select      arpa                                 0.234933237099
 
 
测试集         模型 Union_factor                 WER
 
Qw_all         Templatetag                 0.376478607803
 
Qw_all         Templatetag+arpa -1 0.154577168291
 
Qw_all         arpa                                 0.220990647731
 
</pre>
 
 
LM和TagModel的合并fst, union,不是compose。                        晓明
 
LM和TagModel的合并fst, union,不是compose。                        晓明
 
测试集:句式在Tag中
 
测试集:句式在Tag中
第129行: 第95行:
  
 
目前需要解决的:
 
目前需要解决的:
并行;
+
并行:解决了慢的问题,多分了几个流;
 
CDphone
 
CDphone
  
第158行: 第124行:
 
   pdf monophone
 
   pdf monophone
 
   初步进行试验。
 
   初步进行试验。
 +
 +
解码,中文标,出不来,英文标,但是会吃中文;Tag的Position找的不对;QQ密码,从微信换成银行卡,不吃中文;
 +
40句完全对14句;4句+6句,剩下的不对;
 +
 +
中文、英文同时标注;
 +
声学中英混,语言模型,用Tag加;
  
 
==粤语16K==
 
==粤语16K==
第209行: 第181行:
 
背景噪音
 
背景噪音
  
 +
PLDA adaptation
 +
GMM个数256调整成128,ivector:200调100;
 
<pre>
 
<pre>
 
16K IV模型
 
16K IV模型
第229行: 第203行:
  
 
</pre>
 
</pre>
 +
 +
周四中午论文学习:13:00;
 +
周一下午项目:15:00;

2015年11月11日 (三) 06:39的版本

数据

  • 第三季度目标

语音数据

  • 16K 灵云数据

10000小时实际语料的标注目标,已立项400小时的标注; 语料从1000小时中,通过ASR打分,取出中间的400小时;

  • 粤语标注了一个测试集,增量9小时,CER:54%;30h,50%

已完成55.74小时。

  • 维语

已完成110小时;

大模型

1)16K10000小时的跑一个DNN训练,加深加宽:7层2400x10000 rectifier 保留英文

  数据已处理完,提参数中;DNN 92上跑;
  pdf:10000 8000中文 2000英文
  GMM
  有卡的问题,卡在IO,100线
  SCP,ark文件,按照机器号命名,分到不同的机器,本地读取;

2)8K 领域模型,领域通用:设备 4层1200x8000 信道、口音

  华为V3信道压缩:4000小时,GMM

嵌入式

  DarkKnowledge训练; 小网络学习大网络,学的会更准,目标函数会更平滑一些;
  rectifier
  4层600*800
  DarkKnowledge先不训练。
  10000从头训练,nnet3 rectifier 4层600*800

TagModel

Weight大,没有出来,路径不一样,路径的整体分值导致不一致; 路径走完,但是也错了,需要查一下 晓明 count:只留两个,不分词,merge可能首外面影响;

   count和分词有关:lm中词重了;
   词的长度不多,加到lm中,当做新词,lm的state就不merge;
   加重path或词边:组合词,lm中加重;                             晓明、小韩

如果加很多新词,需要找到合适的Context。 之勇、晓明 张艺谋:替换姜文合适,但是替换屠呦呦不合适。

   WordVector?基于词向量的新词加重。
   计算PPL的,如果太低的词,就不要加了。
   加重点词和关注的词。老词(词表中已有的)加重;

语料中超过5词,就可以使用。

拼语料和Tag的效果验证比较 晓明

   做了几个试验:
   1)加几百个词,两个的效果基本一致;
   2)加1万、2万、10万个词识别率差不多;10万拼语料太大,没有做出来;Tag比拼语料差3个点;

小米的测试结果: LM和TagModel的合并fst, union,不是compose。 晓明 测试集:句式在Tag中

  • 识别后处理

已知道这个词错了,可以处理。不知时,还需要处理?

勤威项目

  • 发布了一个模型:数据62H台湾POI,在6776MPE3上增量;词表量250多万,识别不好;

省市路,分词,句式:tag的方法来做。 晓明 需要测试集,数据中心14日标完。

语音自适应

针对个人的 能提高2~3%(基数CER约10%) 客户端提取ivector,传给服务器;

RNN

LSTM不稳定,和End-to-End Merge,

  • End-to-End算法,描述上下文不强,将stat去掉;

On 1400h Chinese data, raid96.


model WER(%)

                                                 3-gram LM    5-gram LM      traning time

dnn 21.00 20.47


train_phn_ly4_c320_lr0.00004(iter1) 37.18 36.69 train_phn_ly4_c320_lr0.00004(iter3) 28.55 25.80 train_phn_ly4_c320_lr0.00004(iter4) 24.35 23.74 train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79 train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter 已找到MPE的训练方法,正在训练; MPE有个初步结果,提高0.4个点; MPE的方法是否正确?效果没有Context的好;快了,但是效果不太好; 没有状态;

CTC 单因子,context dependent to independe End-to-End = CTC + CIphone End-to-End + MPE已做完

目前需要解决的: 并行:解决了慢的问题,多分了几个流; CDphone

96,实验室;92 8核GPU 16K,215 8K;

中英混识

声学模型用中英混训练,语言模型使用中文,嵌入英文单词; 方法没有迭代下去,网络预测语种;指定语种复杂度高,训练慢;需要讨论使用其他方法提升。

一个声学+多个语言模型: 得分的可比性:

中文phone: 英文phone:

Mixture:silence分开 LanguageID?

中英单独识别: 两个解码:

原始模型,增强不行; 同一个模型, 旁边网络

Multi Task:

  对Target分成两部分(语音、说话人),对英文的增强;
  pdf monophone
  初步进行试验。

解码,中文标,出不来,英文标,但是会吃中文;Tag的Position找的不对;QQ密码,从微信换成银行卡,不吃中文; 40句完全对14句;4句+6句,剩下的不对;

中文、英文同时标注; 声学中英混,语言模型,用Tag加;

粤语16K

声学模型

已训练完成 130H

语言模型

下载语料,训练模型,PPL:1000+ 16K模型:字错误率21.78

粤语8K

  • 目标 WER:>65%

声学模型

  • 需要标注语料,正在招标注员、验收员,进行招聘;"
  • 语言模型 "语言模型训练完了,测试结果:

8k模型:字错误率22.0 测试集采用的是海天润声给的样本数据,从16k转8k。"

用实际语料标注的8K测试,CER:88%; 声学和语言模型,均不匹配;

维语8K

声学模型

已训练35小时;借用梦原的模型;用16K的lm Model,WER:30%左右;

语言模型

和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;

发布了一个维语模型,需要识别标注语料,发布的是word模型: model_35h_20150828 CER:0.419693683925

导出64小时,声学和语言模型进行优化。

声纹识别

  • 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
  • 聚类分类算法 基于Affinity距离的算法研究
  • D-Vector
  • 短语音的识别:

数字模型:单独训练,ivector和plda需要用数字需要训练。 之前录得语料,独立人只有100人; 16K的找到一个1200人的数据,从中挑选; 8K的采购;但是音量小,是否会有影响?

使用条件的问题:

 音量的影响?
 背景噪音:如大厅中,人声噪杂的影响?

端点检测 Mic信道 背景噪音

PLDA adaptation GMM个数256调整成128,ivector:200调100;

16K IV模型
串长	等错误率EER	参考阈值
6	1.08%	0.561605
8	0.45%	0.577476
16K IV数字模型
串长	等错误率EER	参考阈值
6	1.01%	0.564655
8	0.45%	0.591134

8K IV模型
串长	等错误率EER	参考阈值
6	4.43%	0.5007
8	1.66%	0.56881
8K IV数字模型
串长	等错误率EER	参考阈值
6	4.14%	0.5849
8	1.55%	0.6039

周四中午论文学习:13:00; 周一下午项目:15:00;