“Sinovoice-2015-12-09”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
(以“==数据== *第三季度目标 ===语音数据=== *16K 灵云数据 10000小时实际语料的标注目标,已立项400小时的标注; 语料从1000小时中...”为内容创建页面)
 
第19行: 第19行:
 
   数据已处理完,提参数中;DNN 92上跑;
 
   数据已处理完,提参数中;DNN 92上跑;
 
   pdf:10000 8000中文 2000英文
 
   pdf:10000 8000中文 2000英文
   GMM
+
   训练第六轮;cer9.41;
  
<pre>
+
MPE的训练:
Nnet3 training on LARGE DATA:
+
   大体没有问题,验证一些小问题,预期下周一发过来?
 
+
8k:
+
   
+
8k:
+
Dataset = 4200h, LM = 1e-8, beam = 9
+
Baseline is pure-CN model, nnet3 models are multi-lingual models.
+
 
+
-------------------------------------------------------------------------------------------------------------------------
+
  AM / test  |  test_JS  |  test_Shanxi  |  test_Shaanxi  |  test_Unknown  |  test_BJYD  |  test_huaweiFuCe  |
+
-------------------------------------------------------------------------------------------------------------------------
+
Baseline_xEnt|   19.90    |    26.90    |      25.43    |      24.13    |    26.89    |      16.15      |
+
Baseline_MPE |    18.39    |    23.97    |      22.82    |      21.35    |    24.53    |      14.22      |
+
-------------------------------------------------------------------------------------------------------------------------
+
nnet3_4*1200 |    22.44    |    28.31    |      26.59    |      25.10    |    26.57    |      18.93      |
+
-------------------------------------------------------------------------------------------------------------------------
+
nnet3_7*2048 |    20.06    |    24.86    |      23.08    |      21.33    |    22.40    |      14.61      |
+
-------------------------------------------------------------------------------------------------------------------------
+
 
+
  rt:
+
  beam9:                                  beam13:
+
    nnet1_4*1200+7934: 0.45 (train212)        nnet1_4*1200+7934: 1.2 (train212)
+
    nnet3_4*1200+8393: 0.35 (train92)        nnet3_4*1200+8393: 0.9 (train92)
+
    nnet3_7*2048+8393: 0.8 (train92)          nnet3_7*2048+8393: 1.2 (train92)
+
 
+
16k:
+
  LM = 1e-7, beam = 13
+
  Baseline is 6000h+776h mpe model.
+
  nnet3 model is trained by 1700h+776h data.
+
--------------------------------------------------------------------------
+
  AM / test        | 1000ju_from_test_8000ju | 2000ju_from_test_10000ju |
+
--------------------------------------------------------------------------
+
6776h_mpe(baseline)|          10.05          |          21.16          |
+
--------------------------------------------------------------------------
+
  nnet3_6*2000    |          9.56          |          20.94          |
+
--------------------------------------------------------------------------
+
 
+
  rt:
+
  beam13:
+
    nnet1_4*1200+6761: 0.6-0.7 (train212)
+
    nnet3_6*2000+6761: 0.7-0.8 (train212) 0.9-1.0 (queue)
+
 
+
MPE的训练
+
  
 
2)8K 领域模型,领域通用:设备 4层1200x8000  信道、口音
 
2)8K 领域模型,领域通用:设备 4层1200x8000  信道、口音
第71行: 第29行:
 
   分成了100份
 
   分成了100份
 
   识别率下降:下降1-2个点;网络结构增大;
 
   识别率下降:下降1-2个点;网络结构增大;
 +
  MPE今天跑起来一个;
  
 
===嵌入式===
 
===嵌入式===
第78行: 第37行:
 
   DarkKnowledge先不训练。
 
   DarkKnowledge先不训练。
 
   10000从头训练,nnet3 rectifier 4层600*800
 
   10000从头训练,nnet3 rectifier 4层600*800
 
+
 
 
   小模型测试,cer20+;
 
   小模型测试,cer20+;
 
   bigLM的生成还有问题!
 
   bigLM的生成还有问题!
  生成结果有乱码?和机器有关 lattice
 
  
 +
  生成结果有乱码:已解决,依赖的软件包的编译问题。
 +
  识别率不稳定,变化比较大:测试一万句的测试集;
 +
  将测试集分成多块,进行识别,判断是否稳定?  晓明小韩
 +
  按照句子的长短,验证是否跟长短有关?        晓明小韩
 
   解码效率:
 
   解码效率:
  
第129行: 第91行:
  
 
*End-to-End算法,描述上下文不强,将stat去掉;
 
*End-to-End算法,描述上下文不强,将stat去掉;
On 1400h Chinese data, raid96.
+
CTC Kaldi版本,并行的算法完成,在1400h上跑并行。
已找到MPE的训练方法,正在训练;
+
MPE有个初步结果,提高0.4个点;
+
MPE的方法是否正确?效果没有Context的好;快了,但是效果不太好;
+
没有状态;
+
 
+
CTC 单因子,context dependent to independe
+
End-to-End = CTC + CIphone
+
End-to-End + MPE已做完
+
 
+
小数据集没有问题了,MPE的并行有问题;
+
在大数据集上训练验证。
+
 
+
单机完成;
+
 
+
一个月完成大模型的训练;
+
 
+
目前需要解决的:大约1个月,上线约需要3个月;
+
并行:解决了慢的问题,多分了几个流;CTC到Kaldi的Net3
+
CDphone : 搞定,效果还在验证中 h1clg
+
  
CTC Kaldi版本
+
训练数据的并行读取问题?Hadoop?特征+lattice
  
 
96,实验室;92 8核GPU 16K,215 8K;
 
96,实验室;92 8核GPU 16K,215 8K;
第162行: 第105行:
  
 
==粤语8K==
 
==粤语8K==
60小时的,和30小时的(CER45%),没有变化,好了一点点;
+
69小时的(CER28%
CER:44%;
+
之前测试集有问题
只训练最后一层,华为信道;只训练了声学,语言没有更新;
+
字面和英文加入,测试集有,训练现在没有;
查错,找原因;语言模型训练;
+
 
                    
 
                    
 
==维语8K==
 
==维语8K==

2015年12月9日 (三) 06:00的版本

数据

  • 第三季度目标

语音数据

  • 16K 灵云数据

10000小时实际语料的标注目标,已立项400小时的标注; 语料从1000小时中,通过ASR打分,取出中间的400小时;

  • 粤语标注了一个测试集,增量9小时,CER:54%;30h,50%

60h trained. no tag text to lm, CER 45% discard english text; 已完成80小时。

  • 维语

已完成120小时;last train 50h;

大模型

1)16K10000小时的跑一个DNN训练,加深加宽:7层2400x10000 rectifier 保留英文

  数据已处理完,提参数中;DNN 92上跑;
  pdf:10000 8000中文 2000英文
  训练第六轮;cer9.41;

MPE的训练:

  大体没有问题,验证一些小问题,预期下周一发过来?

2)8K 领域模型,领域通用:设备 4层1200x8000 信道、口音

  华为V3信道压缩:4000小时,GMM
  2天,过了10遍;网络结构,
  分成了100份
  识别率下降:下降1-2个点;网络结构增大;
  MPE今天跑起来一个;

嵌入式

  DarkKnowledge训练; 小网络学习大网络,学的会更准,目标函数会更平滑一些;
  rectifier
  4层600*800
  DarkKnowledge先不训练。
  10000从头训练,nnet3 rectifier 4层600*800
  
  小模型测试,cer20+;
  bigLM的生成还有问题!
  生成结果有乱码:已解决,依赖的软件包的编译问题。
  识别率不稳定,变化比较大:测试一万句的测试集;
  将测试集分成多块,进行识别,判断是否稳定?  晓明小韩
  按照句子的长短,验证是否跟长短有关?        晓明小韩
  解码效率:

TagModel

Weight大,没有出来,路径不一样,路径的整体分值导致不一致; 路径走完,但是也错了,需要查一下 晓明 count:只留两个,不分词,merge可能首外面影响;

   count和分词有关:lm中词重了;
   词的长度不多,加到lm中,当做新词,lm的state就不merge;
   *加重path或词边:组合词,lm中加重;                             晓明、小韩
     测试加重“xx导演的巩俐演的”待测试。

如果加很多新词,需要找到合适的Context。 之勇、晓明 张艺谋:替换姜文合适,但是替换屠呦呦不合适。

   *WordVector?基于词向量的新词加重。 会训练WordVector,但是没有加入模型。
   每个词的权重不一样(distance)。
   计算PPL的,如果太低的词,就不要加了。
   加重点词和关注的词。老词(词表中已有的)加重;

语料中超过5词,就可以使用。

拼语料和Tag的效果验证比较 晓明

   做了几个试验:
   1)加几百个词,两个的效果基本一致;
   2)加1万、2万、10万个词识别率差不多;10万拼语料太大,没有做出来;Tag比拼语料差3个点;

小米的测试结果: LM和TagModel的合并fst, union,不是compose。 晓明 测试集:句式在Tag中

  • 识别后处理

已知道这个词错了,可以处理。不知时,还需要处理?

勤威项目

  • 发布了一个模型:数据62H台湾POI,在6776MPE3上增量;词表量250多万,识别不好;

省市路,分词,句式:tag的方法来做。 晓明 需要测试集,数据中心14日标完。

语音自适应

针对个人的 能提高2~3%(基数CER约10%) 客户端提取ivector,传给服务器;

RNN

LSTM不稳定,和End-to-End Merge,

  • End-to-End算法,描述上下文不强,将stat去掉;

CTC Kaldi版本,并行的算法完成,在1400h上跑并行。

训练数据的并行读取问题?Hadoop?特征+lattice

96,实验室;92 8核GPU 16K,215 8K;

粤语16K

声学模型

已训练完成 130H

语言模型

下载语料,训练模型,PPL:1000+ 16K模型:字错误率21.78

粤语8K

69小时的(CER28%) 之前测试集有问题 字面和英文加入,测试集有,训练现在没有;

维语8K

声学模型

已训练35小时;借用梦原的模型;用16K的lm Model,WER:30%左右;

语言模型

和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;

发布了一个维语模型,需要识别标注语料,发布的是word模型: model_35h_20150828 CER:0.419693683925

导出64小时,声学和语言模型进行优化。

声纹识别

  • 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
  • 聚类分类算法 基于Affinity距离的算法研究
  • D-Vector
  • 短语音的识别:

数字模型:单独训练,ivector和plda需要用数字需要训练。 之前录得语料,独立人只有100人; 16K的找到一个1200人的数据,从中挑选; 8K的采购;但是音量小,是否会有影响?

考勤系统,mic指定; 定制背景模型;

加入情绪,场景的分析,分类的分析;

将测试数据加入训练,看是否有提高?

使用条件的问题:

 音量的影响?
 背景噪音:如大厅中,人声噪杂的影响?

信道适应? 端点检测 Mic信道 背景噪音

端点检测,信噪比计算; 发音方式:坐着、站着

PLDA adaptation