FreeNeb project big model SRE status Report 2018-05-02

来自cslt Wiki
2018年5月2日 (三) 09:08Lr讨论 | 贡献的版本

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至: 导航搜索

大规模SRE训练相关: 1)组织对阿里众包数据进行初选; 2)验证full-info训练,目前的结论:

   目标个数较多时(如几千),即使局部小规模(如几百人)逐步替换输出层全连接,也会牵一发而动全身,使得模型损失陡增,无法在短时间内收敛,故替换不能太频繁,并需要预留较长时间使得模型收敛;
   对训练得差不多的网络输出层全连接进行初始化,无论是随机化还是换成特定参数,再经过足够训练轮数达到收敛,都能增强网络泛化能力,这与ASR相关实验结果吻合,好比自身对自身的迁移学习,对于SRE,输出层全连接进行d-vector替换,效果更佳;
   是否length normalize输出层全连接对模型性能影响不大,也适用于大规模模型,与batch normalization有相似性。

语种识别(LID)竞赛相关: 1)测试集数据抽选、整理、打包; 2) i-vector/d-vector recipe按现有SRE recipe格式重新整理、编写。

未来一周工作: 1)协助完成SRE标准测试集的进一步梳理及已有模型结果输出,完成时间5.4 24:00前; 2)full-info训练,据以往实验结果设计以下方案:

   输出层全连接部分替换为d-vector后,给予较长时间训练收敛至正常水平,再进行下一步替换,使用的训练集为阿里众包数据(保留部分测试集数据),模型输出时间5.5 24:00前;

3)LID 模型及测试结果输出,完成日期5.4 24:00前; 3)大规模SRE模型交付

   基于SRE标准测试集,比较新旧各模型的优劣,并列出各条件下性能指标,供工程选择,完成时间5.6 24:00前。