Sinovoice-2015-09-22

来自cslt Wiki
跳转至: 导航搜索

数据

  • 第三季度目标

语音数据

  • 数字字母串

电话录音,已录音完毕,已完成1500句校对,还有5500句尚未校对完毕;

  • 16K 灵云数据

正在标注输入法数据,除了地点的都标注; 每周能够标注50H;8月250小时;

  • 8K

平安:已标注895小时,继续完成200小时;语言模型极少; 英大:已标注110小时,还有几个小时,在继续;; 无锡地税:标注50小时,已标注完成; 滴滴:已提供625,目标标到700小时; 山东移动:立项100小时,到25日;

  • 粤语标注了一个测试集,测试CER:88%;模型:16K降8K;

兼职有一些,验收一人; 在开展培训,计划10月18日标注100小时; 合格1.26小时;提交了10多个小时;30人标注; 香港业务,下载的语料;

汉语1400的基础,自适应粤语;

  • 维语

已标注完成54.05小时,提供训练; 还有10小时成品,尚未导出,等下次训练时导出; 又传上了一批开始标注;

文本数据

  • 香港文本

在继续下载; 需要主要下载新闻网站,之前理发店的就下了40G,没有用;共10G清理出400M;

微博数据? 借助汉语语料? 汉语翻译成粤语?

  • 台湾文本

在继续下载;

2 中文16K

  • 第三季度目标 当前WER:93.5% 目标WER:>94.5%

DNN

RNN

  • 1700+776H

baseline 6776 dnn mpe 27.89 LSTM_xent_iter03_910h 27.99 模型训练中 七轮结束:25.96 slm解码(blm 19.x,解码变差,可选路径比较多?sil_scale没有调优?)相对与baseline:18.x 八轮进行中: 测试集从1000句中挑的; e-5,e-7的比较;

  • newschedule结论:速度快,但是效果会差些;
  • MPE的问题:已解决,跑1400已过;

MPE慢,1小时处理4小时语音;更瘦的 快速MPE?800sil 平安的出来3个MPE,但是需要调整参数,进行训练,不是很容易训练好; 查中英混的MPE

TagModel

  • 代码有错:fst加tag时串了;修改后,小实验上效果良好;小米的正在进行merge(nest);通用模型做的。

加多个Tag时,只有第一个Tag起作用,后面的没有起作用; gmerge,小韩测试,可以出多个,梦原需要核对一下脚本; 只有biglm时存在问题;

Tag方法要解决的问题: 语言模型没有覆盖到; 新的电影名称,人名; 将新的人名或电影名称加进去; 老的,如巩俐等,使用加重,weight是手工选的,不是统计的;

期望解决语料不足的问题,但是只能缓解,不能指望有太大的提高;

TagModel名词: Tag position 词表大小 Tag:人名 电影名 ... Position:借用语言模型中词; 词表大小:每个Tag中的词汇量;

原则: LM能解决的,就不要用Tag; Tag的词表尽量小; Position的选择:从发音词典中的词,计算PPL,排序,根据Tag的类型,找PPL最小的词,这些词作为Tag的Position;

问题是:都已解决 添加一个Tag,小词表范围上是可以的;验证是一致的,添加更多词条,100和10万,结果差不多;Tag的weight值,-1到-5; 添加多个Tag,目前小韩测试可以,梦原这有问题,之前马习应该已解决,需要对以下脚本;也已解决:fst上的标号乱了;


先做一个测试集,最新的电影名: 统计Count; 几个Tag(尽可能少):人名?电影名,电视剧?需要调整weight; 训练Tag模型测试;

LM和句式的Merge的实验?

振龙测试: 小米1.75模型,random语料; 在这个上加tag,按照梦原的方法; 选10个词,和梦原的一样; 加Tag,10万级; 但是识别结果比较离谱;

遗留: 根据句式,fst的compose,找到唯一路径,选择position; 在句式模型上,直接进行Tag处理;

  • 如果Tag中的词加入count,是否有效?

需要验证的(pair的方法): 添加一个Tag: 添加多个Tag:38句,从6.x提高到4.x;

LM和Grammar的试验: 句式模型,试验有问题,需要查; 识别率还行,但是有奇怪的问题发生。 识别偏差大:舒淇;黄渤,韩国; G_merge,句式模型,有死循环;

Count还有问题?

月度语言模型更新

  • 2015-9月,语料下载;

领域语言模型

领域相关模型,类似于声学的mpe,如何描述这个领域?关键词?Grammar?

小米项目

  • TagModel:

Tag: 句式补充:赵涛在做; 词表整理:电影里面不是电影名的去掉;还没有做;

  • 小米线上模型:xiaomi_20150814 0.0175


  • 速度慢

灵云SDK在查;

  • 识别后处理

勤威项目

  • 发布了一个模型:数据62H台湾POI,在6776MPE3上增量;尚未得到用户反馈;

语音自适应

针对个人的 能提高2~3%(基数CER约10%) 客户端提取ivector,传给服务器;

中文8K

  • 第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%)

并行训练

训练机更换第四块GPU卡? 启动1400H的8K,DNN,大约1.6倍,正确率基本一样,没有下降; RNN的还不支持;

Darkknowledge

  • 三种方法
未标注:soft
已标注:soft + hard label,diff加权和 实验室是:加权比只有hard会好些。
mix训练:未标注+已标注
  • 辽宁移动:
400h dark knowledge xEnt + MPE, 有标注和无标注的一起训练,
Mix训练方法:400h迭代优化,加500小时未标注,晓明已训练完,小韩测试效果变差;
分析:应该没有太大的增长,对100小时以内的数据,比较显著;
有时间再查具体原因;已基本达标,优先级降低;
  • Ensemble training
13 model ensemble training: 30.81%
解码ensemble decoding,声学部分,对多个模型的声学后验概率合并输出给后面的解码器;
准备训练:分领域,分省;
8K24省的数据,一共500+,每省20小时左右;
列出数据的编码类型;晓明找一下思思给出;
训练方法:DNN的标准训练方法;
数据标注抽检合格率85%;
优先级低,先搁置,等GPU

Data selection

	
Acoustic-based selection: ubm-decoding done. 
Phonetic-based selection: decoding done.
没有跑。脚本的效率太慢,准备分布式跑,如果还慢,换C++语言重写;
脚本还没有再修改;

滴滴项目

引擎修改多选输出; HCLG的可以了;CLG的还没有修改;

使用358H语料训练: PPL:64 CER:0.14

使用500+的语料,进行独立训练,明天MPE可能有结果;

平安项目

DNN_xent:1400H + 700H 18.16 DNN_mpe:1400H + 700H 16.87 CNN:15.37;引擎模型的打包工具已修改完,引擎提交测试;

目标有变化:坐席90%;客户:80%;原来是平均85%; 一个声学模型,两个语言模型,同时计算; 文本的自动分类:

声学模型895H,已训练完成; 语言模型,需要话者分离,进行分类模型训练:正在做工具; 将文本语料按照话者分离的结果,分开训练:客户的PPL 160提高到143; 混50G自由说模型;之前测试是75%

RNN

700H LSTM_new-sched_4400h 17.39 训练中,平安的数据 已训练完:17.13; MPE的问题已解决,已启动训练; 平安的数据,如果超过CNN的15.37,则可以商用;CNN MPE有迭代一次,没有明显提升; RNN MPE 100H:16.6


  • phone级识别算法

On 1400h Chinese data, raid96.


model WER(%)

                                                 3-gram LM    5-gram LM      traning time

dnn 21.00 20.47


train_phn_ly4_c320_lr0.00004(iter1) 37.18 36.69 train_phn_ly4_c320_lr0.00004(iter3) 28.55 25.80 train_phn_ly4_c320_lr0.00004(iter4) 24.35 23.74 train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79 train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter 还没有找到进行类似MPE的训练方法;

中英混识

  • 第三季度目标 支持中英混识,对纯中文影响<1%,混识识别率达到纯中文的95%;

8K

  • RNN 1400+100H

DNN_xent 中文:20.83 英文:57.50 DNN_xent_ft4200h-hl3 中文:19.52 英文:57.20 LSTM_xent_iter08_1270h 中文:17.49 英文:48.06 基本已收敛:17.17% 英文 48.46% MPE训练已启动;

  • RNN 1400+300H

DNN_xent_ft4200h-hl3 中文:20.56 英文:39.75 LSTM_xent_iter04_1340h 中文:18.93 英文:40.08 训练中 已跑6轮:中文:17.30;英文:38.16 第8轮: 中文:17.91;英文:38.69 第9轮: 中文:17.82;英文:36.38 Decision Tree Balance;

中文16K远场

  • 第三季度目标 2米有效角度内,WER:>88%

山东共达

鲁磊提供了远场声音增强的工具; 准备用近场声音处理后,进行一个模型的训练;

在使用232小时做实验;在6776H上的增量,已训练完毕,测试集没有没有做增强,测试不好;

录制是单声道还是双声道,增强是对单声道还是双声道的? 录制,保留原始数据和增强数据; 6776模型测试,测试集不做增强,11.x;增强后是3.1; 小米测试集重录,使用小米的模型,从3.1提高到2.8,提高0.3;

科声讯的方案

远场处理方案;Mic芯片; 芯片已到,先用已有的近场模型测试;

粤语16K

  • 第三季度目标 目前不支持,目标:支持,WER:>80%

声学模型

已训练完成 130H

语言模型

下载语料,训练模型,PPL:1000+ 16K模型:字错误率21.78

粤语8K

  • 目标 WER:>65%

声学模型

  • 需要标注语料,正在招标注员、验收员,进行招聘;"
  • 语言模型 "语言模型训练完了,测试结果:

8k模型:字错误率22.0 测试集采用的是海天润声给的样本数据,从16k转8k。"

用实际语料标注的8K测试,CER:88%; 声学和语言模型,均不匹配;

文本语料:普通话翻译成粤语

维语16K

WER:85%

维语8K

  • 第三季度目标 目前不支持,目标:支持,WER:>65%

声学模型

已训练35小时;借用梦原的模型;用16K的lm Model,WER:30%左右;

语言模型

和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;

word模型:3G+原Word+35H语料 4元 monphone模型: 4元 老的模型:word 3元,monphone 4元; 需要验证元数的影响:将monphone裁剪为3元;

word比monphone好,都是35小时的文本,4元; 42.5% 44% 请米吉提老师查一下monphone的分词是否正确?

分词有问题?

实验结论: 3元的monphone比word好2个点;

发布了一个维语模型,需要识别标注语料,发布的是word模型: model_35h_20150828 CER:0.419693683925

导出64小时,声学和语言模型进行优化。

其他语种

蒙语 藏语 哈语 朝鲜语 彝族语 ASR和TTS,技术方案:客户提供数据,能否和学校合作:需要懂语言的人来处理数据; 翻译局:朗读

情感识别

  • 第三季度目标 目前:识别生气,正确率<30%;目标破:识别生气:16K >65%; 8K >60%;

OpenEar产品化

待引擎产品化;

8K模型训练

开发完引擎,选取语料,进行标注;

话者分离

  • 第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行

DNN端点检测

  • 端点检测模型:4*400+500,MPE1:

MPE4的模型出来了,但是测试效果没有MPE1好; 需要测试以下MPE2,MPE3,找到一个最好的;

  • 聚类存在BUG,确认是不同数据库的精度造成的,是算法不太鲁棒;
  • 英达财险角色判定错误,需要定位问题;

角色判断: 重新聚类的切分:开源工具(有话者分离功能)

彩铃的识别:REPET的相关信息,有源码,不过是matlab的,需要转成C;

声纹识别

  • 第三季度目标 数字串串长6的EER<1%;支持百万级的实时辨识;
  • 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
  • TZNorm算法 TZNorm算法,与预期不符,检查算法的正确性;
  • 聚类分类算法 基于Affinity距离的算法研究
  • D-Vector
  • 短语音的识别: