“Sinovoice-2015-08-18”版本间的差异

2015年8月24日 (一) 10:51的最后版本

数据

第三季度目标

语音数据

数字串

电话录音

16K 灵云数据

202H 一直在标注中平衡？按照数据来源：输入法、导航

8K

按照项目走

文本数据

粤语文本

洗出来是400+M;已训练模型，CER:22%

2 中文16K

第三季度目标当前WER:93.5% 目标WER:>94.5%

DNN

已训练完：基础模型6776小时的，迭代增量790+580小时的DNN模型；

	7月_v2c_6776MPE3	v2c_1372H_inc_MPE2	v2c_1372H_inc_MPE2(0.97)
New_10000	0.16112014838	0.16241239339	0.159341411132
8000	0.0644148011643	0.0642472724227	0.0623416329864
10000	0.0997464074387	0.0994082840237	0.0952451394759
新词测试集	0.0689477746334	0.0761512734757	0.0771803447389

数据中有#号，丢字多了；句中有#的也丢掉？weak sil scale测试一下。

现在总共有8500H左右；准备重新跑一个训练过程；

一个single的暂不跑； ensemble的解码变好，训练还没有；

准备启动：Random训练，现在是4*1200，增加层好，还是增加节点数好？加2层，用新标的数据来训练；

暂时没有时间做。考虑：只用实际数据。

RNN

1700+776H LSTM_xent_iter03_910h 27.99 模型训练中

iter05_ 四轮跑完；

三轮中的一个模型，newschedule

小LM1e-5(几M)，比6000+H的DNN要好，好1个点；大LM，没有DNN的好；

MPE的问题：还没有解决

TagModel

实验室解决技术问题,还没有调出一个好的结果，直接在语言模型上fst调权重，可以出来；

lm中加重；
tag，在lm中有的去掉；选择词替换，test数据到lm中试；
后处理：替换；

video Tag，不能加太多；不是Name的去掉；清理Video；
梦原:有问题的加入Tag，验证是否有效？
晓明:指导数据加工，过滤出有效的数据；

1. 没必要调参数，word vector选词；纠错不行；similary pair；
   宁可：纠错词典，下周1之前会有一个简单能用的版本；
2. 分类：word vector 人名 电视剧名 电影名；
   宁可去掉，不能错放；
   重名？

代码有错：fst加tag时串了；修改后，小实验上效果良好；小米的正在进行merge（nest)；
13万词，加进去并不好；Tag还是需要筛查；
如果Tag中的词加入count，是否有效？

月度语言模型更新

2015-7月测试，已上线：

	4月_model_0.05	6月_model	7月_v2c_model
New_10000	0.162184350153	0.161849886739	0.16112014838
8000	0.0648126819257	0.0649802106674	0.0644148011643
10000	0.100338123415	0.100253592561	0.0997464074387
新词测试集	0.079495755081	0.0720349884229	0.0689477746334"

2015-8月,正在下载语料；

领域语言模型

领域相关模型，类似于声学的mpe，如何描述这个领域？关键词？Grammar？

小米项目

TagModel:

已做一个模型，经常跑入Tag；对人名、地名的加重不好，不稳定，体验不好；切出小的ngram模型，调整权重；tag先使用句式，再和大的merge； Tag的权重不好调，统计词的count;

赵涛总结句式，准备用造语料的方法，进行lm的训练；
加重path路径权重；
Word加重，已发给，小韩需要测试；

上线了一个针对错误，优化（增加语料，对巩俐、张艺谋）

xiaomi_20150813   0.0182
xiaomi_20150814   0.0175

多选

调试已差不多了，速度也不慢了；"

勤威项目

之前有8K和16K混存的问题，数据重新转了一遍，就没有问题了；
发布了一个模型：数据62H台湾POI，在6776MPE3上增量"

中文8K

第三季度目标当前WER:75%；目标WER:>78% (相对下降10%)

并行训练

并行训练：需要新版本cublas的支持；kaldi不支持，需要支持；可以在多个GPU上跑了。2个GPU上比1个快1.6倍；"

Darkknowledge

三种方法

未标注：soft
已标注：soft + hard label，diff加权和 实验室是：加权比只有hard会好些。
mix训练：未标注+已标注

辽宁移动:

400h dark knowledge xEnt + MPE， 有标注和无标注的一起训练，
Mix训练方法：400h迭代优化，加500小时未标注，晓明已训练完，小韩测试效果变差；
分析：应该没有太大的增长，对100小时以内的数据，比较显著；
有时间再查具体原因；已基本达标，优先级降低；

Ensemble training

13 model ensemble training: 30.81%
解码ensemble decoding，声学部分，对多个模型的声学后验概率合并输出给后面的解码器；
准备训练：分领域，分省；
8K24省的数据，一共500+,每省20小时左右；
列出数据的编码类型；晓明找一下思思给出；
训练方法：DNN的标准训练方法；
数据标注抽检合格率85%；
优先级低，先搁置，等GPU

Data selection

Acoustic-based selection: ubm-decoding done. Phonetic-based selection: decoding done. 没有跑。脚本的效率太慢，准备分布式跑，如果还慢，换C++语言重写；脚本还没有再修改；

滴滴项目

声学模型训练：270H的增量训练，大概12日能出来；语言模型训练：标注语料，ppl：69；识别率：84% 引擎修改多选输出：语言声学都优化：ppl：67 识别率84.6%

平安项目

DNN_xent：1400H + 700H 18.16 DNN_mpe：1400H + 700H 16.87 CNN：15.37；梦原给了一个模型，公司这边还没有测试；引擎模型的打包工具需要修改，还没有修改；"

RNN

700H LSTM_new-sched_4400h 17.39 训练中

3 中英混识

第三季度目标支持中英混识，对纯中文影响<1%，混识识别率达到纯中文的95%；

8K

RNN 1400+100H

DNN_xent 中文：20.83 英文：57.50 DNN_xent_ft4200h-hl3 中文：19.52 英文：57.20 基本已收敛：17.17% 英文 48.46%

LSTM_xent_iter08_1270h 中文：17.49 英文：48.06

RNN 1400+300H

DNN_xent_ft4200h-hl3 中文：20.56 英文：39.75 LSTM_xent_iter04_1340h 中文：18.93 英文：40.08 训练中已跑6轮：中文：17.30 英文：38.16"

4 中文16K远场

第三季度目标 2米有效角度内，WER:>88%

山东共达

山东共达：基于Android的一个处理算法，将数据处理一遍，进行模型训练；由于效率比较低，鲁磊正在供应商联系，提供Windows或Linux版本的；是否需要完全模拟远场，进行声音采集或处理？

近场变远场：算法有，需要调试；远场变近场：共达提供算法；近场数据处理：共达提供算法；

科声讯的方案

远场处理方案；Mic芯片；

粤语16K

第三季度目标目前不支持，目标：支持，WER:>80%

声学模型

已训练完成 130H

语言模型

已拿到数据，开始训练；繁体转简体。数据质量差？网页下载繁体；确认是否是粤语字？ PPL：1000+"

粤语8K

目标 WER:>65%

声学模型

需要标注语料，正在招标注员、验收员，进行招聘；"
语言模型 "语言模型训练完了，测试结果：

16K模型：字错误率21.78 8k模型：字错误率22.0 测试集采用的是海天润声给的样本数据，从16k转8k。" 维语16K WER:85%

维语8K

第三季度目标目前不支持，目标：支持，WER:>65%

声学模型

已训练35小时；借用梦原的模型；用16K的lm Model，30%左右；

语言模型

和新疆大学调试：公司Word；实验室 35H标注文本数据已提供实验室处理； toolkit做完了，维语句子转成monphone串；"

8 情感识别

第三季度目标目前：识别生气，正确率<30%；目标破：识别生气：16K >65%; 8K >60%;

OpenEar产品化

待引擎产品化；

8K模型训练

开发完引擎，选取语料，进行标注；

9 话者分离

第三季度目标目前：正确率82%；目标：暂无计划，结合项目进行

DNN端点检测

之前训练的4*300*2的端点检测模型，实时率得到提升，占整个RT的4%左右，但是正确率相对于大模型下降，大模型82%，小模型70%；
正在训练新的端点检测模型：4*400+500；MPE的前处理，预计：2天左右能出MPE1；

引擎版本 字错误率
R925 cer:0.229239308333;
r946 cer:0.253077634669;

引擎版本 话者分离总时长        正确率
R925 all total:3429752.000000 correct:0.824830
r946 all total:3409079.000000 correct:0.773867"

声纹识别

第三季度目标数字串串长6的EER<1%;支持百万级的实时辨识；
数字串模型训练正在采集数字串语音数据，预期本月内完成；
TZNorm算法 TZNorm算法，与预期不符，检查算法的正确性；
聚类分类算法基于Affinity距离的算法研究
D-Vector

@@ 第1行： / 第1行： @@
-h1. 数据	第三季度目标
+==数据==
-h2. 语音数据	数字串的电话录音
+*第三季度目标
-K 灵云数据 202H 一直在标注中 平衡？按照数据来源：输入法、导航
+===语音数据===
-K 按照项目走
+*数字串
+电话录音
+*16K 灵云数据
+H 一直在标注中 平衡？按照数据来源：输入法、导航
+*8K
+按照项目走
+===文本数据===
+*粤语文本
+洗出来是400+M;已训练模型，CER:22%
-	文本数据	粤语文本，洗出来是400+M;已训练模型，CER:22%
+==2 中文16K==
+*第三季度目标	当前WER:93.5%  目标WER:>94.5%
-中文16K 	第三季度目标	当前WER:93.5%  目标WER:>94.5%
+===DNN===
-	DNN:	"已训练完：基础模型6776小时的，迭代增量790+580小时的DNN模型；
+*已训练完：基础模型6776小时的，迭代增量790+580小时的DNN模型；
-月_v2c_6776MPE3 v2c_1372H_inc_MPE2 v2c_1372H_inc_MPE2(0.97)
+--------------
-New_10000  0.16112014838    0.16241239339      0.159341411132
+{| class="wikitable" border="1"
-      0.0644148011643  0.0642472724227    0.0623416329864
+|                ||7月_v2c_6776MPE3 || v2c_1372H_inc_MPE2 || v2c_1372H_inc_MPE2(0.97)
-     0.0997464074387  0.0994082840237    0.0952451394759
+|-
-新词测试集  0.0689477746334  0.0761512734757    0.0771803447389
+| New_10000      || 0.16112014838   || 0.16241239339      || 0.159341411132
-数据中有#号，丢字多了；句中有#的也丢掉？weak sil scale测试一下。"
+|-
-		"现在总共有8500H左右；准备重新跑一个训练过程；
+| 8000           || 0.0644148011643 || 0.0642472724227    || 0.0623416329864
+|-
+| 10000          || 0.0997464074387 || 0.0994082840237    || 0.0952451394759
+|-
+| 新词测试集     || 0.0689477746334 || 0.0761512734757    || 0.0771803447389
+|}
+--------------
+数据中有#号，丢字多了；句中有#的也丢掉？weak sil scale测试一下。
+*现在总共有8500H左右；准备重新跑一个训练过程；
 一个single的暂不跑；
-ensemble的解码变好，训练还没有；"
+ensemble的解码变好，训练还没有；
-		准备启动：Random训练，现在是4*1200，增加层好，还是增加节点数好？加2层，用新标的数据来训练；
+*准备启动：Random训练，现在是4*1200，增加层好，还是增加节点数好？加2层，用新标的数据来训练；
 		暂时没有时间做。
 		考虑：只用实际数据。
-	RNN： 	"1700+776H LSTM_xent_iter03_910h 27.99  模型训练中
+===RNN===
+*1700+776H LSTM_xent_iter03_910h 27.99  模型训练中
 iter05_
 四轮跑完；
-三轮中的一个模型，newschedule
+*三轮中的一个模型，newschedule
 小LM1e-5(几M)，比6000+H的DNN要好，好1个点；
 大LM，没有DNN的好；
+*MPE的问题：还没有解决
-MPE的问题：还没有解决"
+===TagModel===
-	TagModel：实验室解决技术问题	还没有调出一个好的结果，直接在语言模型上fst调权重，可以出来；
+*实验室解决技术问题,还没有调出一个好的结果，直接在语言模型上fst调权重，可以出来；
-. lm中加重；
+# lm中加重；
-. tag，在lm中有的去掉；选择词替换，test数据到lm中试；
+# tag，在lm中有的去掉；选择词替换，test数据到lm中试；
-. 后处理：替换；
+# 后处理：替换；
-		"video Tag，不能加太多；不是Name的去掉；清理Video；
-梦原:有问题的加入Tag，验证是否有效？
-晓明:指导数据加工，过滤出有效的数据；
+*video Tag，不能加太多；不是Name的去掉；清理Video；
+*梦原:有问题的加入Tag，验证是否有效？
+*晓明:指导数据加工，过滤出有效的数据；
+<pre>
 . 没必要调参数，word vector选词；纠错不行；similary pair；
     宁可：纠错词典，下周1之前会有一个简单能用的版本；
@@ 第42行： / 第64行： @@
     宁可去掉，不能错放；
     重名？
+</pre>
-代码有错：fst加tag时串了；修改后，小实验上效果良好；小米的正在进行merge（nest)；
+*代码有错：fst加tag时串了；修改后，小实验上效果良好；小米的正在进行merge（nest)；
-万词，加进去并不好；Tag还是需要筛查；
+*13万词，加进去并不好；Tag还是需要筛查；
-如果Tag中的词加入count，是否有效？"
+*如果Tag中的词加入count，是否有效？
-	月度语言模型更新：	"2015-7月测试，准备上线中：
-月_model_0.05  6月_model        7月_v2c_model
-New_10000   0.162184350153  0.161849886739   0.16112014838
-        0.0648126819257 0.0649802106674  0.0644148011643
-       0.100338123415  0.100253592561   0.0997464074387
-新词测试集  0.079495755081   0.0720349884229  0.0689477746334"
--8月,正在下载语料；
-	领域语言模型：	领域相关模型，类似于声学的mpe，如何描述这个领域？关键词？Grammar？
-	小米项目：	TagModel，已做一个模型，经常跑入Tag；对人名、地名的加重不好，不稳定，体验不好；
-		切出小的ngram模型，调整权重；tag先使用句式，再和大的merge；
-		"Tag的权重不好调，统计词的count;
-赵涛总结句式，准备用造语料的方法，进行lm的训练；
-加重path路径权重；
-Word加重，已发给，小韩需要测试；
-上线了一个针对错误，优化（增加语料，对巩俐、张艺谋）
+===月度语言模型更新===
+*2015-7月测试，已上线：
+{| class="wikitable" border="1"
+|           || 4月_model_0.05  || 6月_model       || 7月_v2c_model
+|-
+|New_10000   || 0.162184350153  || 0.161849886739  || 0.16112014838
+|-
+|8000        || 0.0648126819257 || 0.0649802106674 || 0.0644148011643
+|-
+|10000       || 0.100338123415  || 0.100253592561  || 0.0997464074387
+|-
+|新词测试集  || 0.079495755081  || 0.0720349884229 || 0.0689477746334"
+|}
+*2015-8月,正在下载语料；
+===领域语言模型===
+领域相关模型，类似于声学的mpe，如何描述这个领域？关键词？Grammar？
+===小米项目===
+*TagModel:
+已做一个模型，经常跑入Tag；对人名、地名的加重不好，不稳定，体验不好；
+切出小的ngram模型，调整权重；tag先使用句式，再和大的merge；
+Tag的权重不好调，统计词的count;
+*赵涛总结句式，准备用造语料的方法，进行lm的训练；
+*加重path路径权重；
+*Word加重，已发给，小韩需要测试；
+*上线了一个针对错误，优化（增加语料，对巩俐、张艺谋）
+<pre>
 xiaomi_20150813   0.0182
 xiaomi_20150814   0.0175
+</pre>
-多选：调试已差不多了，速度也不慢了；"
+*多选
-	勤威项目：	"数据有问题：8K的保存成了16K，16K的格式，读的比较慢，确认一下数据格式；
+调试已差不多了，速度也不慢了；"
-数据重新转了一遍，就没有问题了；
+===勤威项目===
-发布了一个模型：数据62H台湾POI，在6776MPE3上增量"
+*之前有8K和16K混存的问题，数据重新转了一遍，就没有问题了；
+*发布了一个模型：数据62H台湾POI，在6776MPE3上增量"
+==中文8K==
+*第三季度目标	当前WER:75%；目标WER:>78% (相对下降10%)
-中文8K 	第三季度目标	当前WER:75%；目标WER:>78% (相对下降10%)
+===并行训练===
-	并行训练	"并行训练：需要新版本cublas的支持；kaldi不支持，需要支持；
+并行训练：需要新版本cublas的支持；kaldi不支持，需要支持；
 可以在多个GPU上跑了。2个GPU上比1个快1.6倍；"
-	Darkknowledge的三种方法：	未标注：soft
-		已标注：soft + hard label，diff加权和 实验室是：加权比只有hard会好些。mix训练：未标注+已标注
+===Darkknowledge===
-		辽宁移动：DarkKnowledge
+*三种方法
-	DarkKnowledge：	辽宁移动: 400h dark knowledge xEnt + MPE， 有标注和无标注的一起训练，
+<pre>
-		Mix训练方法：400h迭代优化，加500小时未标注，晓明已训练完，小韩测试效果变差；
+未标注：soft
-		分析：应该没有太大的增长，对100小时以内的数据，比较显著；
+已标注：soft + hard label，diff加权和 实验室是：加权比只有hard会好些。
-		"有时间再查具体原因；
+mix训练：未标注+已标注
-已基本达标，优先级降低；"
+</pre>
-	Ensemble training 	:* 13 model ensemble training: 30.81%
-		解码ensemble decoding，声学部分，对多个模型的声学后验概率合并输出给后面的解码器；
+*辽宁移动:
-		准备训练：分领域，分省；
+<pre>
-K24省的数据，一共500+,每省20小时左右；
+h dark knowledge xEnt + MPE， 有标注和无标注的一起训练，
-		列出数据的编码类型；晓明找一下思思给出；
+Mix训练方法：400h迭代优化，加500小时未标注，晓明已训练完，小韩测试效果变差；
-		训练方法：DNN的标准训练方法；
+分析：应该没有太大的增长，对100小时以内的数据，比较显著；
-		数据标注抽检合格率85%；
+有时间再查具体原因；已基本达标，优先级降低；
-		优先级低，先搁置，等GPU
+</pre>
-	Data selection 	:* Acoustic-based selection: ubm-decoding done.
-		:* Phonetic-based selection: decoding done.
+*Ensemble training
-		没有跑。脚本的效率太慢，准备分布式跑，如果还慢，换C++语言重写；
+<pre>
-		脚本还没有再修改；
+model ensemble training: 30.81%
-	滴滴项目：	声学模型训练：270H的增量训练，大概12日能出来；
+解码ensemble decoding，声学部分，对多个模型的声学后验概率合并输出给后面的解码器；
-		"语言模型训练：标注语料，ppl：69；识别率：84%
+准备训练：分领域，分省；
+K24省的数据，一共500+,每省20小时左右；
+列出数据的编码类型；晓明找一下思思给出；
+训练方法：DNN的标准训练方法；
+数据标注抽检合格率85%；
+优先级低，先搁置，等GPU
+</pre>
+*Data selection
+Acoustic-based selection: ubm-decoding done.
+Phonetic-based selection: decoding done.
+没有跑。脚本的效率太慢，准备分布式跑，如果还慢，换C++语言重写；
+脚本还没有再修改；
+===滴滴项目===
+声学模型训练：270H的增量训练，大概12日能出来；
+语言模型训练：标注语料，ppl：69；识别率：84%
 引擎修改多选输出：
+语言声学都优化：ppl：67 识别率84.6%
-语言声学都优化：ppL：67 识别率84.6%"
+===平安项目===
-	平安项目：	DNN_xent：1400H + 700H 18.16
+DNN_xent：1400H + 700H 18.16
-		DNN_mpe：1400H + 700H 16.87
+DNN_mpe：1400H + 700H 16.87
-		"CNN：15.37；梦原给了一个模型，公司这边还没有测试；
+CNN：15.37；梦原给了一个模型，公司这边还没有测试；
 引擎模型的打包工具需要修改，还没有修改；"
-		RNN：700H LSTM_new-sched_4400h 17.39 训练中
-中英混识	第三季度目标	支持中英混识，对纯中文影响<1%，混识识别率达到纯中文的95%；
+===RNN===
-K RNN 1400+100H	DNN_xent                   中文：20.83   英文：57.50
+H LSTM_new-sched_4400h 17.39 训练中
-		DNN_xent_ft4200h-hl3       中文：19.52   英文：57.20
-		"基本已收敛：17.17% 英文 48.46%
+==3 中英混识==
-"
+*第三季度目标	支持中英混识，对纯中文影响<1%，混识识别率达到纯中文的95%；
-		LSTM_xent_iter08_1270h     中文：17.49   英文：48.06
+===8K===
-K RNN 1400+300H	DNN_xent_ft4200h-hl3   中文：20.56   英文：39.75
+*RNN 1400+100H
-		"LSTM_xent_iter04_1340h 中文：18.93   英文：40.08 训练中
+DNN_xent                   中文：20.83   英文：57.50
+DNN_xent_ft4200h-hl3       中文：19.52   英文：57.20
+基本已收敛：17.17% 英文 48.46%
+LSTM_xent_iter08_1270h     中文：17.49   英文：48.06
+*RNN 1400+300H
+DNN_xent_ft4200h-hl3   中文：20.56   英文：39.75
+LSTM_xent_iter04_1340h 中文：18.93   英文：40.08 训练中
 已跑6轮：中文：17.30 英文：38.16"
-中文16K远场	第三季度目标	2米有效角度内，WER:>88%
-	山东共达	"山东共达：基于Android的一个处理算法，将数据处理一遍，进行模型训练；由于效率比较低，鲁磊正在供应商联系，提供Windows或Linux版本的；
+==4 中文16K远场==
+*第三季度目标	2米有效角度内，WER:>88%
+===山东共达===
+山东共达：基于Android的一个处理算法，将数据处理一遍，进行模型训练；由于效率比较低，鲁磊正在供应商联系，提供Windows或Linux版本的；
 是否需要完全模拟远场，进行声音采集或处理？
 近场变远场：算法有，需要调试；
 远场变近场：共达提供算法；
-近场数据处理：共达提供算法；"
+近场数据处理：共达提供算法；
-		讯的方案：远场处理方案；Mic芯片；
-粤语16K 	第三季度目标	目前不支持，目标：支持，WER:>80%
+===科声讯的方案===
-	声学模型	已训练完成 130H
+远场处理方案；Mic芯片；
-	语言模型	"已拿到数据，开始训练；繁体转简体。
+==粤语16K==
+*第三季度目标	目前不支持，目标：支持，WER:>80%
+===声学模型===
+已训练完成 130H
+===语言模型===
+已拿到数据，开始训练；繁体转简体。
 数据质量差？
 网页下载繁体；确认是否是粤语字？
 PPL：1000+"
-粤语8K 	 目标	WER:>65%
-	声学模型	"需要标注语料，正在招标注员、验收员
+==粤语8K==
-考题，进行招聘；"
+*目标	WER:>65%
-	语言模型	"语言模型训练完了，测试结果：
+===声学模型===
+*需要标注语料，正在招标注员、验收员，进行招聘；"
+*语言模型	"语言模型训练完了，测试结果：
 K模型：字错误率21.78
 k模型：字错误率22.0
@@ 第139行： / 第214行： @@
 维语16K 	WER:85%
-维语8K 	第三季度目标	目前不支持，目标：支持，WER:>65%
+==维语8K==
-	声学模型	已训练35小时；借用梦原的模型；用16K的lm Model，30%左右；
+*第三季度目标	目前不支持，目标：支持，WER:>65%
-	语言模型	"和新疆大学调试：公司Word；实验室
+===声学模型===
+已训练35小时；借用梦原的模型；用16K的lm Model，30%左右；
+===语言模型===
+和新疆大学调试：公司Word；实验室
 H标注文本数据已提供实验室处理；
 toolkit做完了，维语句子转成monphone串；"
-情感识别	第三季度目标	目前：识别生气，正确率<30%；目标破：识别生气：16K >65%; 8K >60%;
-	OpenEar产品化	待引擎产品化；
-K模型训练	开发完引擎，选取语料，进行标注；
-话者分离	第三季度目标	目前：正确率82%；目标：暂无计划，结合项目进行
-	DNN端点检测	"之前训练的4*300*2的端点检测模型，实时率得到提升，占整个RT的4%左右，但是正确率相对于大模型下降，大模型82%，小模型70%；
-正在训练新的端点检测模型：4*400+500；MPE的前处理，预计：2天左右能出MPE1；
+==8 情感识别==
+*第三季度目标	目前：识别生气，正确率<30%；目标破：识别生气：16K >65%; 8K >60%;
+===OpenEar产品化===
+待引擎产品化；
+===8K模型训练===
+开发完引擎，选取语料，进行标注；
+==9 话者分离==
+*第三季度目标	目前：正确率82%；目标：暂无计划，结合项目进行
+===DNN端点检测===
+*之前训练的4*300*2的端点检测模型，实时率得到提升，占整个RT的4%左右，但是正确率相对于大模型下降，大模型82%，小模型70%；
+*正在训练新的端点检测模型：4*400+500；MPE的前处理，预计：2天左右能出MPE1；
+<pre>
 引擎版本 字错误率
 R925 cer:0.229239308333;
@@ 第158行： / 第245行： @@
 R925 all total:3429752.000000 correct:0.824830
 r946 all total:3409079.000000 correct:0.773867"
-声纹识别：	第三季度目标	数字串串长6的EER<1%;支持百万级的实时辨识；
+</pre>
-	数字串模型训练	正在采集数字串语音数据，预期本月内完成；
-	TZNorm算法	TZNorm算法，与预期不符，检查算法的正确性；
+==声纹识别==
-	聚类分类算法	基于Affinity距离的算法研究
+*第三季度目标	数字串串长6的EER<1%;支持百万级的实时辨识；
-	D-Vector
+*数字串模型训练 正在采集数字串语音数据，预期本月内完成；
+*TZNorm算法 TZNorm算法，与预期不符，检查算法的正确性；
+*聚类分类算法 基于Affinity距离的算法研究
+*D-Vector

“Sinovoice-2015-08-18”版本间的差异

2015年8月24日 (一) 10:51的最后版本

目录

数据

语音数据

文本数据

2 中文16K

DNN

RNN

TagModel

月度语言模型更新

领域语言模型

小米项目

勤威项目

中文8K

并行训练

Darkknowledge

滴滴项目

平安项目

RNN

3 中英混识

8K

4 中文16K远场

山东共达

科声讯的方案

粤语16K

声学模型

语言模型

粤语8K

声学模型

维语8K

声学模型

语言模型

8 情感识别

OpenEar产品化

8K模型训练

9 话者分离

DNN端点检测

声纹识别

导航菜单

搜索