“Sinovoice-2015-11-11”版本间的差异
第17行: | 第17行: | ||
数据已处理完,提参数中;DNN 92上跑; | 数据已处理完,提参数中;DNN 92上跑; | ||
pdf:10000 8000中文 2000英文 | pdf:10000 8000中文 2000英文 | ||
+ | GMM | ||
+ | 有卡的问题,卡在IO,100线 | ||
+ | SCP,ark文件,按照机器号命名,分到不同的机器,本地读取; | ||
2)8K 领域模型,领域通用:设备 4层1200x8000 信道、口音 | 2)8K 领域模型,领域通用:设备 4层1200x8000 信道、口音 | ||
− | + | 华为V3信道压缩:4000小时,GMM | |
− | + | ||
===嵌入式=== | ===嵌入式=== | ||
DarkKnowledge训练; 小网络学习大网络,学的会更准,目标函数会更平滑一些; | DarkKnowledge训练; 小网络学习大网络,学的会更准,目标函数会更平滑一些; | ||
rectifier | rectifier | ||
− | |||
4层600*800 | 4层600*800 | ||
− | + | DarkKnowledge先不训练。 | |
− | + | 10000从头训练,nnet3 rectifier 4层600*800 | |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
===TagModel=== | ===TagModel=== | ||
第42行: | 第35行: | ||
路径走完,但是也错了,需要查一下 晓明 | 路径走完,但是也错了,需要查一下 晓明 | ||
count:只留两个,不分词,merge可能首外面影响; | count:只留两个,不分词,merge可能首外面影响; | ||
+ | count和分词有关:lm中词重了; | ||
+ | 词的长度不多,加到lm中,当做新词,lm的state就不merge; | ||
+ | 加重path或词边:组合词,lm中加重; 晓明、小韩 | ||
如果加很多新词,需要找到合适的Context。 之勇、晓明 | 如果加很多新词,需要找到合适的Context。 之勇、晓明 | ||
张艺谋:替换姜文合适,但是替换屠呦呦不合适。 | 张艺谋:替换姜文合适,但是替换屠呦呦不合适。 | ||
− | WordVector?基于词向量的新词加重。 | + | WordVector?基于词向量的新词加重。 |
计算PPL的,如果太低的词,就不要加了。 | 计算PPL的,如果太低的词,就不要加了。 | ||
加重点词和关注的词。老词(词表中已有的)加重; | 加重点词和关注的词。老词(词表中已有的)加重; | ||
第58行: | 第54行: | ||
小米的测试结果: | 小米的测试结果: | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
LM和TagModel的合并fst, union,不是compose。 晓明 | LM和TagModel的合并fst, union,不是compose。 晓明 | ||
测试集:句式在Tag中 | 测试集:句式在Tag中 | ||
第129行: | 第95行: | ||
目前需要解决的: | 目前需要解决的: | ||
− | + | 并行:解决了慢的问题,多分了几个流; | |
CDphone | CDphone | ||
第158行: | 第124行: | ||
pdf monophone | pdf monophone | ||
初步进行试验。 | 初步进行试验。 | ||
+ | |||
+ | 解码,中文标,出不来,英文标,但是会吃中文;Tag的Position找的不对;QQ密码,从微信换成银行卡,不吃中文; | ||
+ | 40句完全对14句;4句+6句,剩下的不对; | ||
+ | |||
+ | 中文、英文同时标注; | ||
+ | 声学中英混,语言模型,用Tag加; | ||
==粤语16K== | ==粤语16K== | ||
第209行: | 第181行: | ||
背景噪音 | 背景噪音 | ||
+ | PLDA adaptation | ||
+ | GMM个数256调整成128,ivector:200调100; | ||
<pre> | <pre> | ||
16K IV模型 | 16K IV模型 | ||
第229行: | 第203行: | ||
</pre> | </pre> | ||
+ | |||
+ | 周四中午论文学习:13:00; | ||
+ | 周一下午项目:15:00; |
2015年11月11日 (三) 06:39的版本
目录
数据
- 第三季度目标
语音数据
- 16K 灵云数据
10000小时实际语料的标注目标,已立项400小时的标注; 语料从1000小时中,通过ASR打分,取出中间的400小时;
- 粤语标注了一个测试集,增量9小时,CER:54%;30h,50%
已完成55.74小时。
- 维语
已完成110小时;
大模型
1)16K10000小时的跑一个DNN训练,加深加宽:7层2400x10000 rectifier 保留英文
数据已处理完,提参数中;DNN 92上跑; pdf:10000 8000中文 2000英文 GMM 有卡的问题,卡在IO,100线 SCP,ark文件,按照机器号命名,分到不同的机器,本地读取;
2)8K 领域模型,领域通用:设备 4层1200x8000 信道、口音
华为V3信道压缩:4000小时,GMM
嵌入式
DarkKnowledge训练; 小网络学习大网络,学的会更准,目标函数会更平滑一些; rectifier 4层600*800 DarkKnowledge先不训练。 10000从头训练,nnet3 rectifier 4层600*800
TagModel
Weight大,没有出来,路径不一样,路径的整体分值导致不一致; 路径走完,但是也错了,需要查一下 晓明 count:只留两个,不分词,merge可能首外面影响;
count和分词有关:lm中词重了; 词的长度不多,加到lm中,当做新词,lm的state就不merge; 加重path或词边:组合词,lm中加重; 晓明、小韩
如果加很多新词,需要找到合适的Context。 之勇、晓明 张艺谋:替换姜文合适,但是替换屠呦呦不合适。
WordVector?基于词向量的新词加重。 计算PPL的,如果太低的词,就不要加了。 加重点词和关注的词。老词(词表中已有的)加重;
语料中超过5词,就可以使用。
拼语料和Tag的效果验证比较 晓明
做了几个试验: 1)加几百个词,两个的效果基本一致; 2)加1万、2万、10万个词识别率差不多;10万拼语料太大,没有做出来;Tag比拼语料差3个点;
小米的测试结果: LM和TagModel的合并fst, union,不是compose。 晓明 测试集:句式在Tag中
- 识别后处理
已知道这个词错了,可以处理。不知时,还需要处理?
勤威项目
- 发布了一个模型:数据62H台湾POI,在6776MPE3上增量;词表量250多万,识别不好;
省市路,分词,句式:tag的方法来做。 晓明 需要测试集,数据中心14日标完。
语音自适应
针对个人的 能提高2~3%(基数CER约10%) 客户端提取ivector,传给服务器;
RNN
LSTM不稳定,和End-to-End Merge,
- End-to-End算法,描述上下文不强,将stat去掉;
On 1400h Chinese data, raid96.
model WER(%)
3-gram LM 5-gram LM traning time
dnn 21.00 20.47
train_phn_ly4_c320_lr0.00004(iter1) 37.18 36.69 train_phn_ly4_c320_lr0.00004(iter3) 28.55 25.80 train_phn_ly4_c320_lr0.00004(iter4) 24.35 23.74 train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79 train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter 已找到MPE的训练方法,正在训练; MPE有个初步结果,提高0.4个点; MPE的方法是否正确?效果没有Context的好;快了,但是效果不太好; 没有状态;
CTC 单因子,context dependent to independe End-to-End = CTC + CIphone End-to-End + MPE已做完
目前需要解决的: 并行:解决了慢的问题,多分了几个流; CDphone
96,实验室;92 8核GPU 16K,215 8K;
中英混识
声学模型用中英混训练,语言模型使用中文,嵌入英文单词; 方法没有迭代下去,网络预测语种;指定语种复杂度高,训练慢;需要讨论使用其他方法提升。
一个声学+多个语言模型: 得分的可比性:
中文phone: 英文phone:
Mixture:silence分开 LanguageID?
中英单独识别: 两个解码:
原始模型,增强不行; 同一个模型, 旁边网络
Multi Task:
对Target分成两部分(语音、说话人),对英文的增强; pdf monophone 初步进行试验。
解码,中文标,出不来,英文标,但是会吃中文;Tag的Position找的不对;QQ密码,从微信换成银行卡,不吃中文; 40句完全对14句;4句+6句,剩下的不对;
中文、英文同时标注; 声学中英混,语言模型,用Tag加;
粤语16K
声学模型
已训练完成 130H
语言模型
下载语料,训练模型,PPL:1000+ 16K模型:字错误率21.78
粤语8K
- 目标 WER:>65%
声学模型
- 需要标注语料,正在招标注员、验收员,进行招聘;"
- 语言模型 "语言模型训练完了,测试结果:
8k模型:字错误率22.0 测试集采用的是海天润声给的样本数据,从16k转8k。"
用实际语料标注的8K测试,CER:88%; 声学和语言模型,均不匹配;
维语8K
声学模型
已训练35小时;借用梦原的模型;用16K的lm Model,WER:30%左右;
语言模型
和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;
发布了一个维语模型,需要识别标注语料,发布的是word模型: model_35h_20150828 CER:0.419693683925
导出64小时,声学和语言模型进行优化。
声纹识别
- 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
- 聚类分类算法 基于Affinity距离的算法研究
- D-Vector
- 短语音的识别:
数字模型:单独训练,ivector和plda需要用数字需要训练。 之前录得语料,独立人只有100人; 16K的找到一个1200人的数据,从中挑选; 8K的采购;但是音量小,是否会有影响?
使用条件的问题:
音量的影响? 背景噪音:如大厅中,人声噪杂的影响?
端点检测 Mic信道 背景噪音
PLDA adaptation GMM个数256调整成128,ivector:200调100;
16K IV模型 串长 等错误率EER 参考阈值 6 1.08% 0.561605 8 0.45% 0.577476 16K IV数字模型 串长 等错误率EER 参考阈值 6 1.01% 0.564655 8 0.45% 0.591134 8K IV模型 串长 等错误率EER 参考阈值 6 4.43% 0.5007 8 1.66% 0.56881 8K IV数字模型 串长 等错误率EER 参考阈值 6 4.14% 0.5849 8 1.55% 0.6039
周四中午论文学习:13:00; 周一下午项目:15:00;