“Sinovoice-2015-10-13”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
 
(相同用户的一个中间修订版本未显示)
第50行: 第50行:
 
语言模型,越大越不好;
 
语言模型,越大越不好;
  
Domain Adaptation:Train集好,Test集不好;(声学和语言一起学了)
+
Domain Adaptation:Train集好,Test集不好;(声学和语言一起学了)   梦原
 
验证对专业领域的效果,如果可以,可以做专业领域模型;
 
验证对专业领域的效果,如果可以,可以做专业领域模型;
 +
 +
16K9000小时的跑一个DNN训练,加深加宽:7层2400x100000  先做500小时;
 +
8K 领域模型,领域通用:设备 4层1200x8000              先等等
 +
212,215上训练,一个8k一个16k。
  
 
===TagModel===
 
===TagModel===
 
Weight大,没有出来,路径不一样,路径的整体分值导致不一致;
 
Weight大,没有出来,路径不一样,路径的整体分值导致不一致;
路径没有走完,可能出现;
+
路径没有走完,可能出现;beam增大?要让路径走到底。                晓明
 
+
*代码有错:fst加tag时串了;修改后,小实验上效果良好;小米的正在进行merge(nest);通用模型做的。
+
加多个Tag时,只有第一个Tag起作用,后面的没有起作用;
+
gmerge,小韩测试,可以出多个,梦原需要核对一下脚本;
+
只有biglm时存在问题;
+
 
+
Tag方法要解决的问题:
+
语言模型没有覆盖到;
+
新的电影名称,人名;
+
将新的人名或电影名称加进去;
+
老的,如巩俐等,使用加重,weight是手工选的,不是统计的;
+
 
+
期望解决语料不足的问题,但是只能缓解,不能指望有太大的提高;
+
 
+
TagModel名词:
+
Tag position 词表大小
+
Tag:人名 电影名 ...
+
Position:借用语言模型中词;
+
词表大小:每个Tag中的词汇量;
+
 
+
原则:
+
LM能解决的,就不要用Tag;
+
Tag的词表尽量小;
+
Position的选择:从发音词典中的词,计算PPL,排序,根据Tag的类型,找PPL最小的词,这些词作为Tag的Position;
+
 
+
问题是:都已解决
+
添加一个Tag,小词表范围上是可以的;验证是一致的,添加更多词条,100和10万,结果差不多;Tag的weight值,-1到-5;
+
添加多个Tag,目前小韩测试可以,梦原这有问题,之前马习应该已解决,需要对以下脚本;也已解决:fst上的标号乱了;
+
 
+
 
+
 
+
先做一个测试集,最新的电影名:
+
统计Count;
+
几个Tag(尽可能少):人名?电影名,电视剧?需要调整weight;
+
训练Tag模型测试;
+
 
+
LM和句式的Merge的实验?
+
 
+
振龙测试:
+
小米1.75模型,random语料;
+
在这个上加tag,按照梦原的方法;
+
选10个词,和梦原的一样;
+
加Tag,10万级;
+
但是识别结果比较离谱;
+
 
+
遗留:
+
根据句式,fst的compose,找到唯一路径,选择position;
+
在句式模型上,直接进行Tag处理;
+
  
*如果Tag中的词加入count,是否有效?
+
大词表,没有权重,不进去,设一个极小值,保证能进去?              晓明
 +
计算PPL的,如果太低的词,就不要加了。
 +
加重点词和关注的词。老词(词表中已有的)加重;
  
需要验证的(pair的方法):
+
如果加很多新词,需要找到合适的Context。                            之勇、晓明
添加一个Tag:
+
张艺谋:替换姜文合适,但是替换屠呦呦不合适。
添加多个Tag:38句,从6.x提高到4.x;
+
WordVector?基于词向量的新词加重。
 +
语料中超过5词,就可以使用。
  
LM和Grammar的试验:
+
拼语料和Tag的效果验证比较                                          晓明
句式模型,试验有问题,需要查;
+
识别率还行,但是有奇怪的问题发生。
+
识别偏差大:舒淇;黄渤,韩国;
+
G_merge,句式模型,有死循环;
+
  
Count还有问题?
+
LM和Grammar的合并fst, union,不是compose。                        晓明
  
 
===月度语言模型更新===
 
===月度语言模型更新===
*2015-9月,语料下载;
+
*2015-10月,语料下载;
  
 
===领域语言模型===
 
===领域语言模型===
第138行: 第93行:
  
 
*识别后处理
 
*识别后处理
 +
已知道这个词错了,可以处理。不知时,还需要处理?
  
 
===勤威项目===
 
===勤威项目===
*发布了一个模型:数据62H台湾POI,在6776MPE3上增量;尚未得到用户反馈;
+
*发布了一个模型:数据62H台湾POI,在6776MPE3上增量;词表量250多万,识别不好;
 +
省市路,分词,句式:tag的方法来做。                晓明
 +
需要测试集,数据中心14日标完。
  
 
===语音自适应===
 
===语音自适应===
第153行: 第111行:
 
训练机更换第四块GPU卡?
 
训练机更换第四块GPU卡?
 
启动1400H的8K,DNN,大约1.6倍,正确率基本一样,没有下降;
 
启动1400H的8K,DNN,大约1.6倍,正确率基本一样,没有下降;
RNN的还不支持;
+
DNN可以,RNN的Nnet3支持,还不支持;
 +
 
  
 
===Darkknowledge===
 
===Darkknowledge===
*三种方法
+
已标注数据:对200小时以下,基础模型大于70%;
<pre>
+
车牌号、粤语使用的是该方法;
未标注:soft
+
无监督:平安、国电的使用过。考虑:confitence低的扔掉?
已标注:soft + hard label,diff加权和 实验室是:加权比只有hard会好些。
+
mix训练:未标注+已标注
+
</pre>
+
 
+
*辽宁移动:
+
<pre>
+
400h dark knowledge xEnt + MPE, 有标注和无标注的一起训练,
+
Mix训练方法:400h迭代优化,加500小时未标注,晓明已训练完,小韩测试效果变差;
+
分析:应该没有太大的增长,对100小时以内的数据,比较显著;
+
有时间再查具体原因;已基本达标,优先级降低;
+
</pre>
+
  
 
*Ensemble training
 
*Ensemble training
第193行: 第141行:
 
===滴滴项目===
 
===滴滴项目===
 
引擎修改多选输出;
 
引擎修改多选输出;
HCLG的可以了;CLG的还没有修改;
 
 
使用358H语料训练:
 
PPL:64 CER:0.14
 
 
使用500+的语料,进行独立训练,明天MPE可能有结果;
 
  
 
===平安项目===
 
===平安项目===
第211行: 第153行:
 
声学模型895H,已训练完成;
 
声学模型895H,已训练完成;
 
语言模型,需要话者分离,进行分类模型训练:正在做工具;
 
语言模型,需要话者分离,进行分类模型训练:正在做工具;
将文本语料按照话者分离的结果,分开训练:客户的PPL 160提高到143;
+
将文本语料按照话者分离的结果,分开训练:客户的PPL 160提高到143;混在一起,PPL30+;
 
混50G自由说模型;之前测试是75%
 
混50G自由说模型;之前测试是75%
 +
 +
声学模型分客服和客户单独训练?
  
 
===RNN===
 
===RNN===
第253行: 第197行:
 
DNN_xent_ft4200h-hl3  中文:20.56  英文:39.75
 
DNN_xent_ft4200h-hl3  中文:20.56  英文:39.75
 
LSTM_xent_iter04_1340h 中文:18.93  英文:40.08 训练中
 
LSTM_xent_iter04_1340h 中文:18.93  英文:40.08 训练中
已跑6轮:中文:17.30;英文:38.16
 
 
第8轮:  中文:17.91;英文:38.69
 
第8轮:  中文:17.91;英文:38.69
 
第9轮:  中文:17.82;英文:36.38
 
第9轮:  中文:17.82;英文:36.38
Decision Tree Balance;
+
 
 +
Decision Tree Balance:MPE之前,8000,英文少,区分能力弱; 之勇  这周出来
 +
加语言模型反而不好。
  
 
==中文16K远场==
 
==中文16K远场==
第268行: 第213行:
 
录制是单声道还是双声道,增强是对单声道还是双声道的?
 
录制是单声道还是双声道,增强是对单声道还是双声道的?
 
录制,保留原始数据和增强数据;
 
录制,保留原始数据和增强数据;
 +
 
6776模型测试,测试集不做增强,11.x;增强后是3.1;
 
6776模型测试,测试集不做增强,11.x;增强后是3.1;
 
小米测试集重录,使用小米的模型,从3.1提高到2.8,提高0.3;
 
小米测试集重录,使用小米的模型,从3.1提高到2.8,提高0.3;
第307行: 第253行:
 
35H标注文本数据已提供实验室处理;
 
35H标注文本数据已提供实验室处理;
 
toolkit做完了,维语句子转成monphone串;
 
toolkit做完了,维语句子转成monphone串;
 
word模型:3G+原Word+35H语料 4元
 
monphone模型: 4元
 
老的模型:word 3元,monphone 4元;
 
需要验证元数的影响:将monphone裁剪为3元;
 
 
word比monphone好,都是35小时的文本,4元;
 
42.5%  44%
 
请米吉提老师查一下monphone的分词是否正确?
 
 
分词有问题?
 
 
实验结论:
 
3元的monphone比word好2个点;
 
  
 
发布了一个维语模型,需要识别标注语料,发布的是word模型:
 
发布了一个维语模型,需要识别标注语料,发布的是word模型:
第347行: 第279行:
 
==话者分离==
 
==话者分离==
 
*第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行
 
*第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行
 +
 
===DNN端点检测===
 
===DNN端点检测===
 
*端点检测模型:4*400+500,MPE1:
 
*端点检测模型:4*400+500,MPE1:
第362行: 第295行:
  
 
==声纹识别==
 
==声纹识别==
*第三季度目标 数字串串长6的EER<1%;支持百万级的实时辨识;
+
* 第三季度目标 数字串串长6的EER<1%;支持百万级的实时辨识;
*数字串模型训练 正在采集数字串语音数据,预期本月内完成;
+
* 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
*TZNorm算法 TZNorm算法,与预期不符,检查算法的正确性;
+
* TZNorm算法 TZNorm算法,与预期不符,检查算法的正确性; PLDA上结果是不好。
*聚类分类算法 基于Affinity距离的算法研究
+
* 聚类分类算法 基于Affinity距离的算法研究
*D-Vector
+
* D-Vector
*短语音的识别:
+
* 短语音的识别:
 +
 
 +
数字模型:单独训练
 +
ivector和plda需要用数字需要训练。
 +
 
 +
password测试集:EER 1~2%

2015年10月13日 (二) 08:58的最后版本

数据

  • 第三季度目标

语音数据

  • 16K 灵云数据

正在标注输入法数据,除了地点的都标注; 每周能够标注50H;8月250小时;

  • 8K

平安:已标注895小时,继续完成200小时;语言模型极少; 英大:已标注110小时,还有几个小时,暂停,cer:84%; 滴滴:已提供690,目标标到700小时; 山东移动:立项100小时,到25日;

  • 粤语标注了一个测试集,增量9小时,CER:54%;

兼职有一些,验收一人; 在开展培训,计划10月18日标注100小时; 已完成15小时,40+标注,每天有1.x小时;50小时,预期在CER:35% 香港业务,下载的语料; 使用已提交的可以训练;

  • 维语

已标注完成62小时,一个星期出不了1个小时; 可以先结一次。

文本数据

  • 香港文本

在继续下载;转刘桐 需要主要下载新闻网站,之前理发店的就下了40G,没有用;共10G清理出400M;

微博数据? 借助汉语语料? 汉语翻译成粤语:上次翻译测试,不太好,如果能够看懂,可以继续。 可以发个专利:基于机器翻译的跨语言语言模型增强方法 - 小韩

  • 台湾文本

在继续下载;

2 中文16K

  • 第四季度目标 当前WER:93.5% 目标WER:>94.5%

DNN

RNN

  • 1700+776H

baseline 6776 dnn mpe 27.89 LSTM_xent_iter03_910h 27.99 模型训练中

MPE容易发散,提升也不如DNN; SLTM过训练比较严重; 语言模型,越大越不好;

Domain Adaptation:Train集好,Test集不好;(声学和语言一起学了) 梦原 验证对专业领域的效果,如果可以,可以做专业领域模型;

16K9000小时的跑一个DNN训练,加深加宽:7层2400x100000 先做500小时; 8K 领域模型,领域通用:设备 4层1200x8000 先等等 212,215上训练,一个8k一个16k。

TagModel

Weight大,没有出来,路径不一样,路径的整体分值导致不一致; 路径没有走完,可能出现;beam增大?要让路径走到底。 晓明

大词表,没有权重,不进去,设一个极小值,保证能进去? 晓明 计算PPL的,如果太低的词,就不要加了。 加重点词和关注的词。老词(词表中已有的)加重;

如果加很多新词,需要找到合适的Context。 之勇、晓明 张艺谋:替换姜文合适,但是替换屠呦呦不合适。 WordVector?基于词向量的新词加重。 语料中超过5词,就可以使用。

拼语料和Tag的效果验证比较 晓明

LM和Grammar的合并fst, union,不是compose。 晓明

月度语言模型更新

  • 2015-10月,语料下载;

领域语言模型

领域相关模型,类似于声学的mpe,如何描述这个领域?关键词?Grammar?

小米项目

  • TagModel:

Tag: 句式补充:赵涛在做; 词表整理:电影里面不是电影名的去掉;还没有做;

  • 小米线上模型:xiaomi_20150814 0.0175


  • 速度慢

灵云SDK在查;

  • 识别后处理

已知道这个词错了,可以处理。不知时,还需要处理?

勤威项目

  • 发布了一个模型:数据62H台湾POI,在6776MPE3上增量;词表量250多万,识别不好;

省市路,分词,句式:tag的方法来做。 晓明 需要测试集,数据中心14日标完。

语音自适应

针对个人的 能提高2~3%(基数CER约10%) 客户端提取ivector,传给服务器;

中文8K

  • 第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%)

并行训练

训练机更换第四块GPU卡? 启动1400H的8K,DNN,大约1.6倍,正确率基本一样,没有下降; DNN可以,RNN的Nnet3支持,还不支持;


Darkknowledge

已标注数据:对200小时以下,基础模型大于70%; 车牌号、粤语使用的是该方法; 无监督:平安、国电的使用过。考虑:confitence低的扔掉?

  • Ensemble training
13 model ensemble training: 30.81%
解码ensemble decoding,声学部分,对多个模型的声学后验概率合并输出给后面的解码器;
准备训练:分领域,分省;
8K24省的数据,一共500+,每省20小时左右;
列出数据的编码类型;晓明找一下思思给出;
训练方法:DNN的标准训练方法;
数据标注抽检合格率85%;
优先级低,先搁置,等GPU

Data selection

	
Acoustic-based selection: ubm-decoding done. 
Phonetic-based selection: decoding done.
没有跑。脚本的效率太慢,准备分布式跑,如果还慢,换C++语言重写;
脚本还没有再修改;

滴滴项目

引擎修改多选输出;

平安项目

DNN_xent:1400H + 700H 18.16 DNN_mpe:1400H + 700H 16.87 CNN:15.37;引擎模型的打包工具已修改完,引擎提交测试;

目标有变化:坐席90%;客户:80%;原来是平均85%; 一个声学模型,两个语言模型,同时计算; 文本的自动分类:

声学模型895H,已训练完成; 语言模型,需要话者分离,进行分类模型训练:正在做工具; 将文本语料按照话者分离的结果,分开训练:客户的PPL 160提高到143;混在一起,PPL30+; 混50G自由说模型;之前测试是75%

声学模型分客服和客户单独训练?

RNN

700H LSTM_new-sched_4400h 17.39 训练中,平安的数据 已训练完:17.13; MPE的问题已解决,已启动训练; 平安的数据,如果超过CNN的15.37,则可以商用;CNN MPE有迭代一次,没有明显提升; RNN MPE 100H:16.6

CNN + RNN(2层) CNN + Monohone?

  • phone级识别算法

On 1400h Chinese data, raid96.


model WER(%)

                                                 3-gram LM    5-gram LM      traning time

dnn 21.00 20.47


train_phn_ly4_c320_lr0.00004(iter1) 37.18 36.69 train_phn_ly4_c320_lr0.00004(iter3) 28.55 25.80 train_phn_ly4_c320_lr0.00004(iter4) 24.35 23.74 train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79 train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter 在进行类似MPE的训练方法,估计一个星期可以出结果;10月份能够应用到项目中; 增量训练的问题?

中英混识

  • 第三季度目标 支持中英混识,对纯中文影响<1%,混识识别率达到纯中文的95%;

8K

  • RNN 1400+100H

DNN_xent 中文:20.83 英文:57.50 DNN_xent_ft4200h-hl3 中文:19.52 英文:57.20 LSTM_xent_iter08_1270h 中文:17.49 英文:48.06 基本已收敛:17.17% 英文 48.46% MPE训练已启动;

  • RNN 1400+300H

DNN_xent_ft4200h-hl3 中文:20.56 英文:39.75 LSTM_xent_iter04_1340h 中文:18.93 英文:40.08 训练中 第8轮: 中文:17.91;英文:38.69 第9轮: 中文:17.82;英文:36.38

Decision Tree Balance:MPE之前,8000,英文少,区分能力弱; 之勇 这周出来 加语言模型反而不好。

中文16K远场

  • 第三季度目标 2米有效角度内,WER:>88%

山东共达

鲁磊提供了远场声音增强的工具; 准备用近场声音处理后,进行一个模型的训练;

在使用232小时做实验;在6776H上的增量,已训练完毕,测试集没有没有做增强,测试不好;

录制是单声道还是双声道,增强是对单声道还是双声道的? 录制,保留原始数据和增强数据;

6776模型测试,测试集不做增强,11.x;增强后是3.1; 小米测试集重录,使用小米的模型,从3.1提高到2.8,提高0.3;

科声讯的方案

远场处理方案;Mic芯片; 芯片已到,先用已有的近场模型测试;

粤语16K

  • 第三季度目标 目前不支持,目标:支持,WER:>80%

声学模型

已训练完成 130H

语言模型

下载语料,训练模型,PPL:1000+ 16K模型:字错误率21.78

粤语8K

  • 目标 WER:>65%

声学模型

  • 需要标注语料,正在招标注员、验收员,进行招聘;"
  • 语言模型 "语言模型训练完了,测试结果:

8k模型:字错误率22.0 测试集采用的是海天润声给的样本数据,从16k转8k。"

用实际语料标注的8K测试,CER:88%; 声学和语言模型,均不匹配;

文本语料:普通话翻译成粤语

维语16K

WER:85%

维语8K

  • 第三季度目标 目前不支持,目标:支持,WER:>65%

声学模型

已训练35小时;借用梦原的模型;用16K的lm Model,WER:30%左右;

语言模型

和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;

发布了一个维语模型,需要识别标注语料,发布的是word模型: model_35h_20150828 CER:0.419693683925

导出64小时,声学和语言模型进行优化。

其他语种

蒙语 藏语 哈语 朝鲜语 彝族语 ASR和TTS,技术方案:客户提供数据,能否和学校合作:需要懂语言的人来处理数据; 翻译局:朗读

情感识别

  • 第三季度目标 目前:识别生气,正确率<30%;目标破:识别生气:16K >65%; 8K >60%;

OpenEar产品化

待引擎产品化;

8K模型训练

开发完引擎,选取语料,进行标注;

话者分离

  • 第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行

DNN端点检测

  • 端点检测模型:4*400+500,MPE1:

MPE4的模型出来了,但是测试效果没有MPE1好; 需要测试以下MPE2,MPE3,找到一个最好的;

  • 聚类存在BUG,确认是不同数据库的精度造成的,是算法不太鲁棒;
  • 英达财险角色判定错误,需要定位问题;

角色判断: 重新聚类的切分:开源工具(有话者分离功能)

彩铃的识别:REPET的相关信息,有源码,不过是matlab的,需要转成C;

声纹识别

  • 第三季度目标 数字串串长6的EER<1%;支持百万级的实时辨识;
  • 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
  • TZNorm算法 TZNorm算法,与预期不符,检查算法的正确性; PLDA上结果是不好。
  • 聚类分类算法 基于Affinity距离的算法研究
  • D-Vector
  • 短语音的识别:

数字模型:单独训练 ivector和plda需要用数字需要训练。

password测试集:EER 1~2%