Sinovoice-2015-11-11

数据

第三季度目标

语音数据

16K 灵云数据

10000小时实际语料的标注目标，已立项400小时的标注；语料从1000小时中，通过ASR打分，取出中间的400小时；

粤语标注了一个测试集，增量9小时，CER：54%；30h,50%

已完成55.74小时。

维语

已完成110小时；

大模型

1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文

  数据已处理完，提参数中；DNN 92上跑；
  pdf：10000 8000中文 2000英文

2）8K 领域模型，领域通用：设备 4层1200x8000 信道、口音

  华为V3信道压缩：中文英文语料已处理完，中英混还在处理中；

嵌入式

  DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；
  rectifier
  8000->800 需要调整pdf对应关系；
  4层600*800
  之勇已提供训练脚本；
  晓明准备搭建环境还是训练;

> 整理了一下之前的结果，600_800模型比大模型差一点多。 > 之前好像是记错了，是600_800 + 小语言模型是88%左右，加大语言模型时差的不多。

 问题是：如果server模型已经是93.5%，Embedded模型是92.5%，即便DarkKnowledge能
 有很大改进，也只能是93%左右吧？
 这样不能看出有多少优势啊？
 DarkKnowledge先不训练。
 10000从头训练，nnet3 rectifier 4层600*800

TagModel

Weight大，没有出来，路径不一样，路径的整体分值导致不一致；路径走完，但是也错了，需要查一下晓明 count：只留两个，不分词，merge可能首外面影响；

如果加很多新词，需要找到合适的Context。之勇、晓明张艺谋：替换姜文合适，但是替换屠呦呦不合适。

WordVector？基于词向量的新词加重。

   计算PPL的，如果太低的词，就不要加了。
   加重点词和关注的词。老词（词表中已有的）加重；

语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明

   做了几个试验：
   1）加几百个词，两个的效果基本一致；
   2）加1万、2万、10万个词识别率差不多；10万拼语料太大，没有做出来；Tag比拼语料差3个点；

小米的测试结果：

Template tag include the word in the test
句式	Tag种类	Video数量	Name数量	Factor	测试集	                WER
38	2	282             792             -1	xiaomi_my_templete   	0.0034
38	2	282             792             -2	xiaomi_my_templete  	0.0034
38	2	282             792             1	xiaomi_my_templete  	0.0034
38	2	111754          132549          -1	xiaomi_my_templete  	0.044
38	2	1W              1W              -1	xiaomi_my_templete  	0.064
38	2	1W+1W           1W+1W  -1	xiaomi_my_templete	                0.068
55	2	1W              1W              -1	Xiaomi_Ttag               	0.030

Splice corpus include the word in the test
句式	Tag种类	Video数量	Name数量	  测试集	             WER
38	2	1W	1W	xiaomi_my_templete	       0.037
38	2	1W+1W	1W+1W	xiaomi_my_templete	        0.027
55	2	1W	1W	Xiaomi_Ttag	        0.228

勤威模型两个测试结果：
测试集	        模型	      nion_factor    WER
Qw_select       Templatetag                                        0.0810529961898
Qw_select       Templatetag+arpa	-1	0.125389677866
Qw_select       Templatetag+arpa	-3	0.128853481122
Qw_select       Templatetag+arpa	-5	0.140284031867
Qw_select       arpa		                                0.234933237099

测试集	        模型	Union_factor	                WER
Qw_all	        Templatetag		                0.376478607803
Qw_all	        Templatetag+arpa	-1	0.154577168291
Qw_all	        arpa		                                0.220990647731

LM和TagModel的合并fst, union，不是compose。晓明测试集：句式在Tag中

识别后处理

已知道这个词错了，可以处理。不知时，还需要处理？

勤威项目

发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；

省市路，分词，句式：tag的方法来做。晓明需要测试集，数据中心14日标完。

语音自适应

针对个人的能提高2~3%(基数CER约10%) 客户端提取ivector，传给服务器；

RNN

LSTM不稳定，和End-to-End Merge，

End-to-End算法，描述上下文不强，将stat去掉；

On 1400h Chinese data, raid96.

model WER(%)

                                                 3-gram LM    5-gram LM      traning time

dnn 21.00 20.47

train_phn_ly4_c320_lr0.00004(iter1) 37.18 36.69 train_phn_ly4_c320_lr0.00004(iter3) 28.55 25.80 train_phn_ly4_c320_lr0.00004(iter4) 24.35 23.74 train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79 train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter 已找到MPE的训练方法，正在训练； MPE有个初步结果，提高0.4个点； MPE的方法是否正确？效果没有Context的好；快了，但是效果不太好；没有状态；

CTC 单因子，context dependent to independe End-to-End = CTC + CIphone End-to-End + MPE已做完

目前需要解决的：并行； CDphone

96，实验室；92 8核GPU 16K，215 8K；

中英混识

声学模型用中英混训练，语言模型使用中文，嵌入英文单词；方法没有迭代下去，网络预测语种；指定语种复杂度高，训练慢；需要讨论使用其他方法提升。

一个声学+多个语言模型：得分的可比性：

中文phone：英文phone：

Mixture:silence分开 LanguageID?

中英单独识别：两个解码：

原始模型，增强不行；同一个模型，旁边网络

Multi Task：

  对Target分成两部分（语音、说话人），对英文的增强；
  pdf monophone
  初步进行试验。

粤语16K

声学模型

已训练完成 130H

语言模型

下载语料，训练模型，PPL：1000+ 16K模型：字错误率21.78

粤语8K

目标 WER:>65%

声学模型

需要标注语料，正在招标注员、验收员，进行招聘；"
语言模型 "语言模型训练完了，测试结果：

8k模型：字错误率22.0 测试集采用的是海天润声给的样本数据，从16k转8k。"

用实际语料标注的8K测试，CER：88%；声学和语言模型，均不匹配；

维语8K

声学模型

已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；

语言模型

和新疆大学调试：公司Word；实验室 35H标注文本数据已提供实验室处理； toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型： model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

声纹识别

数字串模型训练正在采集数字串语音数据，预期本月内完成；
聚类分类算法基于Affinity距离的算法研究
D-Vector
短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。之前录得语料，独立人只有100人； 16K的找到一个1200人的数据，从中挑选； 8K的采购；但是音量小，是否会有影响?

使用条件的问题：

 音量的影响？
 背景噪音：如大厅中，人声噪杂的影响？

端点检测 Mic信道背景噪音

Sinovoice-2015-11-11

目录

数据

语音数据

大模型

嵌入式

TagModel

勤威项目

语音自适应

RNN

中英混识

粤语16K

声学模型

语言模型

粤语8K

声学模型

维语8K

声学模型

语言模型

声纹识别

导航菜单

个人工具

名字空间

变种

查看

操作

搜索

导航

工具