“Sinovoice-2015-11-05”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
(以“==数据== *第三季度目标 ===语音数据=== *16K 灵云数据 10000小时实际语料的标注目标,已立项400小时的标注; 语料从1000小时中...”为内容创建页面)
 
第57行: 第57行:
  
 
小米的测试结果:
 
小米的测试结果:
 +
<pre>
 
Template tag include the word in the test
 
Template tag include the word in the test
 
句式 Tag种类 Video数量 Name数量 Factor 测试集                 WER
 
句式 Tag种类 Video数量 Name数量 Factor 测试集                 WER
38 2 282            792            -1 xiaomi_my_templete 0.0034
+
38 2 282            792            -1 xiaomi_my_templete   0.0034
38 2 282            792            -2 xiaomi_my_templete 0.0034
+
38 2 282            792            -2 xiaomi_my_templete 0.0034
38 2 282            792            1 xiaomi_my_templete 0.0034
+
38 2 282            792            1 xiaomi_my_templete 0.0034
38 2 111754          132549          -1 xiaomi_my_templete 0.044
+
38 2 111754          132549          -1 xiaomi_my_templete 0.044
38 2 1W              1W              -1 xiaomi_my_templete 0.064
+
38 2 1W              1W              -1 xiaomi_my_templete 0.064
38 2 1W+1W          1W+1W           -1 xiaomi_my_templete 0.068
+
38 2 1W+1W          1W+1W -1 xiaomi_my_templete                 0.068
55 2 1W              1W              -1 Xiaomi_Ttag         0.030
+
55 2 1W              1W              -1 Xiaomi_Ttag               0.030
  
 
Splice corpus include the word in the test
 
Splice corpus include the word in the test
句式 Tag种类 Video数量 Name数量 测试集 WER
+
句式 Tag种类 Video数量 Name数量   测试集             WER
38 2 1W 1W xiaomi_my_templete 0.037
+
38 2 1W 1W xiaomi_my_templete       0.037
38 2 1W+1W 1W+1W xiaomi_my_templete 0.027
+
38 2 1W+1W 1W+1W xiaomi_my_templete         0.027
 
55 2 1W 1W Xiaomi_Ttag         0.228
 
55 2 1W 1W Xiaomi_Ttag         0.228
  
 
勤威模型两个测试结果:
 
勤威模型两个测试结果:
测试集         模型             Union_factor WER
+
测试集         模型       nion_factor    WER
Qw_select Templatetag         0.0810529961898
+
Qw_select       Templatetag                                       0.0810529961898
Qw_select Templatetag+arpa -1 0.125389677866
+
Qw_select       Templatetag+arpa -1 0.125389677866
Qw_select Templatetag+arpa -3 0.128853481122
+
Qw_select       Templatetag+arpa -3 0.128853481122
Qw_select Templatetag+arpa -5 0.140284031867
+
Qw_select       Templatetag+arpa -5 0.140284031867
Qw_select arpa                 0.234933237099
+
Qw_select       arpa                                 0.234933237099
  
 
测试集         模型 Union_factor                 WER
 
测试集         模型 Union_factor                 WER
Qw_all         Templatetag         0.376478607803
+
Qw_all         Templatetag                 0.376478607803
 
Qw_all         Templatetag+arpa -1 0.154577168291
 
Qw_all         Templatetag+arpa -1 0.154577168291
Qw_all         arpa                 0.220990647731
+
Qw_all         arpa                                 0.220990647731
 
+
</pre>
 
LM和TagModel的合并fst, union,不是compose。                        晓明
 
LM和TagModel的合并fst, union,不是compose。                        晓明
 
测试集:句式在Tag中
 
测试集:句式在Tag中

2015年11月5日 (四) 01:17的版本

数据

  • 第三季度目标

语音数据

  • 16K 灵云数据

10000小时实际语料的标注目标,已立项400小时的标注; 语料从1000小时中,通过ASR打分,取出中间的400小时;


  • 粤语标注了一个测试集,增量9小时,CER:54%;

粤语已标注45小时,本周能达到50小时,训练50小时增量模型; ?要达到75%的目标,大概需要多少语料?训练方法上是否有改进之处?

  • 维语

已标注完成62小时,一个星期出不了1个小时; 可以先结一次。

大模型

1)16K9000小时的跑一个DNN训练,加深加宽:7层2400x10000 rectifier 保留英文

  数据已处理完,提参数中;

2)8K 领域模型,领域通用:设备 4层1200x8000 信道、口音

  华为V3信道压缩:中文英文语料已处理完,中英混还在处理中;


嵌入式

  DarkKnowledge训练; 小网络学习大网络,学的会更准,目标函数会更平滑一些;
  rectifier
  8000->800 需要调整pdf对应关系;
  4层600*800
  之勇已提供训练脚本;
  晓明准备搭建环境还是训练;

> 整理了一下之前的结果,600_800模型比大模型差一点多。 > 之前好像是记错了,是600_800 + 小语言模型是88%左右,加大语言模型时差的不多。

 问题是:如果server模型已经是93.5%,Embedded模型是92.5%,即便DarkKnowledge能
 有很大改进,也只能是93%左右吧?
 这样不能看出有多少优势啊?

TagModel

Weight大,没有出来,路径不一样,路径的整体分值导致不一致; 路径走完,但是也错了,需要查一下 晓明

如果加很多新词,需要找到合适的Context。 之勇、晓明 张艺谋:替换姜文合适,但是替换屠呦呦不合适。

WordVector?基于词向量的新词加重。

   计算PPL的,如果太低的词,就不要加了。
   加重点词和关注的词。老词(词表中已有的)加重;

语料中超过5词,就可以使用。

拼语料和Tag的效果验证比较 晓明

   做了几个试验:
   1)加几百个词,两个的效果基本一致;
   2)加1万、2万、10万个词识别率差不多;10万拼语料太大,没有做出来;Tag比拼语料差3个点;

小米的测试结果:

Template tag include the word in the test
句式	Tag种类	Video数量	Name数量	Factor	测试集	                WER
38	2	282             792             -1	xiaomi_my_templete   	0.0034
38	2	282             792             -2	xiaomi_my_templete  	0.0034
38	2	282             792             1	xiaomi_my_templete  	0.0034
38	2	111754          132549          -1	xiaomi_my_templete  	0.044
38	2	1W              1W              -1	xiaomi_my_templete  	0.064
38	2	1W+1W           1W+1W  -1	xiaomi_my_templete	                0.068
55	2	1W              1W              -1	Xiaomi_Ttag               	0.030

Splice corpus include the word in the test
句式	Tag种类	Video数量	Name数量	  测试集	             WER
38	2	1W	1W	xiaomi_my_templete	       0.037
38	2	1W+1W	1W+1W	xiaomi_my_templete	        0.027
55	2	1W	1W	Xiaomi_Ttag	        0.228

勤威模型两个测试结果:
测试集	        模型	      nion_factor    WER
Qw_select       Templatetag                                        0.0810529961898
Qw_select       Templatetag+arpa	-1	0.125389677866
Qw_select       Templatetag+arpa	-3	0.128853481122
Qw_select       Templatetag+arpa	-5	0.140284031867
Qw_select       arpa		                                0.234933237099

测试集	        模型	Union_factor	                WER
Qw_all	        Templatetag		                0.376478607803
Qw_all	        Templatetag+arpa	-1	0.154577168291
Qw_all	        arpa		                                0.220990647731

LM和TagModel的合并fst, union,不是compose。 晓明 测试集:句式在Tag中

  • 识别后处理

已知道这个词错了,可以处理。不知时,还需要处理?

勤威项目

  • 发布了一个模型:数据62H台湾POI,在6776MPE3上增量;词表量250多万,识别不好;

省市路,分词,句式:tag的方法来做。 晓明 需要测试集,数据中心14日标完。

语音自适应

针对个人的 能提高2~3%(基数CER约10%) 客户端提取ivector,传给服务器;

RNN

LSTM不稳定,放弃

  • End-to-End算法

On 1400h Chinese data, raid96.


model WER(%)

                                                 3-gram LM    5-gram LM      traning time

dnn 21.00 20.47


train_phn_ly4_c320_lr0.00004(iter1) 37.18 36.69 train_phn_ly4_c320_lr0.00004(iter3) 28.55 25.80 train_phn_ly4_c320_lr0.00004(iter4) 24.35 23.74 train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79 train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter 已找到MPE的训练方法,正在训练;

增量训练的问题?

中英混识

声学模型用中英混训练,语言模型使用中文,嵌入英文单词; 方法没有迭代下去,网络预测语种;指定语种复杂度高,训练慢;需要讨论使用其他方法提升。

一个声学+多个语言模型: 得分的可比性:

Mixture:silence分开 LanguageID?

中英单独识别: 两个解码:

Multi Task:

  对Target分成两部分(语音、说话人),对英文的增强;
  pdf monophone
  初步进行试验。

粤语16K

声学模型

已训练完成 130H

语言模型

下载语料,训练模型,PPL:1000+ 16K模型:字错误率21.78

粤语8K

  • 目标 WER:>65%

声学模型

  • 需要标注语料,正在招标注员、验收员,进行招聘;"
  • 语言模型 "语言模型训练完了,测试结果:

8k模型:字错误率22.0 测试集采用的是海天润声给的样本数据,从16k转8k。"

用实际语料标注的8K测试,CER:88%; 声学和语言模型,均不匹配;

维语8K

声学模型

已训练35小时;借用梦原的模型;用16K的lm Model,WER:30%左右;

语言模型

和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;

发布了一个维语模型,需要识别标注语料,发布的是word模型: model_35h_20150828 CER:0.419693683925

导出64小时,声学和语言模型进行优化。

声纹识别

  • 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
  • 聚类分类算法 基于Affinity距离的算法研究
  • D-Vector
  • 短语音的识别:

数字模型:单独训练,ivector和plda需要用数字需要训练。 之前录得语料,独立人只有100人; 16K的找到一个1200人的数据,从中挑选; 8K的采购;但是音量小,是否会有影响?

使用条件的问题:

 音量的影响?
 背景噪音:如大厅中,人声噪杂的影响?