“FreeNeb project big model SRE status Report 2018-05-02”版本间的差异

2018年5月2日 (三) 09:09的最后版本

大规模SRE训练相关：
- 组织对阿里众包数据进行初选；
- 验证full-info训练，目前的结论：

   目标个数较多时（如几千），即使局部小规模（如几百人）逐步替换输出层全连接，也会牵一发而动全身，使得模型损失陡增，无法在短时间内收敛，故替换不能太频繁，并需要预留较长时间使得模型收敛；
   对训练得差不多的网络输出层全连接进行初始化，无论是随机化还是换成特定参数，再经过足够训练轮数达到收敛，都能增强网络泛化能力，这与ASR相关实验结果吻合，好比自身对自身的迁移学习，对于SRE，输出层全连接进行d-vector替换，效果更佳；
   是否length normalize输出层全连接对模型性能影响不大，也适用于大规模模型，与batch normalization有相似性。

未来一周工作：
- 协助完成SRE标准测试集的进一步梳理及已有模型结果输出，完成时间5.4 24:00前；
- full-info训练，据以往实验结果设计以下方案：

 输出层全连接部分替换为d-vector后，给予较长时间训练收敛至正常水平，再进行下一步替换，使用的训练集为阿里众包数据（保留部分测试集数据），模型输出时间5.5 24:00前；

- LID 模型及测试结果输出，完成日期5.4 24:00前；
- 大规模SRE模型交付

   基于SRE标准测试集，比较新旧各模型的优劣，并列出各条件下性能指标，供工程选择，完成时间5.6 24:00前。

@@ 第1行： / 第1行： @@
-大规模SRE训练相关：
+*大规模SRE训练相关：
-）组织对阿里众包数据进行初选；
+**组织对阿里众包数据进行初选；
-）验证full-info训练，目前的结论：
+**验证full-info训练，目前的结论：
      目标个数较多时（如几千），即使局部小规模（如几百人）逐步替换输出层全连接，也会牵一发而动全身，使得模型损失陡增，无法在短时间内收敛，故替换不能太频繁，并需要预留较长时间使得模型收敛；
      对训练得差不多的网络输出层全连接进行初始化，无论是随机化还是换成特定参数，再经过足够训练轮数达到收敛，都能增强网络泛化能力，这与ASR相关实验结果吻合，好比自身对自身的迁移学习，对于SRE，输出层全连接进行d-vector替换，效果更佳；
      是否length normalize输出层全连接对模型性能影响不大，也适用于大规模模型，与batch normalization有相似性。
-语种识别（LID）竞赛相关：
-）测试集数据抽选、整理、打包；
-） i-vector/d-vector recipe按现有SRE recipe格式重新整理、编写。
-未来一周工作：
+*未来一周工作：
-）协助完成SRE标准测试集的进一步梳理及已有模型结果输出，完成时间5.4 24:00前；
+**协助完成SRE标准测试集的进一步梳理及已有模型结果输出，完成时间5.4 24:00前；
-）full-info训练，据以往实验结果设计以下方案：
+**full-info训练，据以往实验结果设计以下方案：
-    输出层全连接部分替换为d-vector后，给予较长时间训练收敛至正常水平，再进行下一步替换，使用的训练集为阿里众包数据（保留部分测试集数据），模型输出时间5.5 24:00前；
+  输出层全连接部分替换为d-vector后，给予较长时间训练收敛至正常水平，再进行下一步替换，使用的训练集为阿里众包数据（保留部分测试集数据），模型输出时间5.5 24:00前；
-）LID 模型及测试结果输出，完成日期5.4 24:00前；
+**LID 模型及测试结果输出，完成日期5.4 24:00前；
-）大规模SRE模型交付
+**大规模SRE模型交付
      基于SRE标准测试集，比较新旧各模型的优劣，并列出各条件下性能指标，供工程选择，完成时间5.6 24:00前。

“FreeNeb project big model SRE status Report 2018-05-02”版本间的差异

2018年5月2日 (三) 09:09的最后版本

导航菜单

个人工具

名字空间

变种

查看

操作

搜索

导航

工具