“FreeNeb project big model SRE status Report 2018-05-02”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
(以“大规模SRE训练相关: 1)组织对阿里众包数据进行初选; 2)验证full-info训练,目前的结论: 目标个数较多时(如几千),...”为内容创建页面)
 
Lr讨论 | 贡献
 
(相同用户的一个中间修订版本未显示)
第1行: 第1行:
大规模SRE训练相关:
+
*大规模SRE训练相关:
1)组织对阿里众包数据进行初选;
+
**组织对阿里众包数据进行初选;
2)验证full-info训练,目前的结论:
+
**验证full-info训练,目前的结论:
 
     目标个数较多时(如几千),即使局部小规模(如几百人)逐步替换输出层全连接,也会牵一发而动全身,使得模型损失陡增,无法在短时间内收敛,故替换不能太频繁,并需要预留较长时间使得模型收敛;
 
     目标个数较多时(如几千),即使局部小规模(如几百人)逐步替换输出层全连接,也会牵一发而动全身,使得模型损失陡增,无法在短时间内收敛,故替换不能太频繁,并需要预留较长时间使得模型收敛;
 
     对训练得差不多的网络输出层全连接进行初始化,无论是随机化还是换成特定参数,再经过足够训练轮数达到收敛,都能增强网络泛化能力,这与ASR相关实验结果吻合,好比自身对自身的迁移学习,对于SRE,输出层全连接进行d-vector替换,效果更佳;
 
     对训练得差不多的网络输出层全连接进行初始化,无论是随机化还是换成特定参数,再经过足够训练轮数达到收敛,都能增强网络泛化能力,这与ASR相关实验结果吻合,好比自身对自身的迁移学习,对于SRE,输出层全连接进行d-vector替换,效果更佳;
 
     是否length normalize输出层全连接对模型性能影响不大,也适用于大规模模型,与batch normalization有相似性。
 
     是否length normalize输出层全连接对模型性能影响不大,也适用于大规模模型,与batch normalization有相似性。
  
语种识别(LID)竞赛相关:
 
1)测试集数据抽选、整理、打包;
 
2) i-vector/d-vector recipe按现有SRE recipe格式重新整理、编写。
 
  
未来一周工作:
+
*未来一周工作:
1)协助完成SRE标准测试集的进一步梳理及已有模型结果输出,完成时间5.4 24:00前;
+
**协助完成SRE标准测试集的进一步梳理及已有模型结果输出,完成时间5.4 24:00前;
2)full-info训练,据以往实验结果设计以下方案:
+
**full-info训练,据以往实验结果设计以下方案:
    输出层全连接部分替换为d-vector后,给予较长时间训练收敛至正常水平,再进行下一步替换,使用的训练集为阿里众包数据(保留部分测试集数据),模型输出时间5.5 24:00前;
+
  输出层全连接部分替换为d-vector后,给予较长时间训练收敛至正常水平,再进行下一步替换,使用的训练集为阿里众包数据(保留部分测试集数据),模型输出时间5.5 24:00前;
3)LID 模型及测试结果输出,完成日期5.4 24:00前;
+
**LID 模型及测试结果输出,完成日期5.4 24:00前;
3)大规模SRE模型交付
+
**大规模SRE模型交付
 
     基于SRE标准测试集,比较新旧各模型的优劣,并列出各条件下性能指标,供工程选择,完成时间5.6 24:00前。
 
     基于SRE标准测试集,比较新旧各模型的优劣,并列出各条件下性能指标,供工程选择,完成时间5.6 24:00前。

2018年5月2日 (三) 09:09的最后版本

  • 大规模SRE训练相关:
    • 组织对阿里众包数据进行初选;
    • 验证full-info训练,目前的结论:
   目标个数较多时(如几千),即使局部小规模(如几百人)逐步替换输出层全连接,也会牵一发而动全身,使得模型损失陡增,无法在短时间内收敛,故替换不能太频繁,并需要预留较长时间使得模型收敛;
   对训练得差不多的网络输出层全连接进行初始化,无论是随机化还是换成特定参数,再经过足够训练轮数达到收敛,都能增强网络泛化能力,这与ASR相关实验结果吻合,好比自身对自身的迁移学习,对于SRE,输出层全连接进行d-vector替换,效果更佳;
   是否length normalize输出层全连接对模型性能影响不大,也适用于大规模模型,与batch normalization有相似性。


  • 未来一周工作:
    • 协助完成SRE标准测试集的进一步梳理及已有模型结果输出,完成时间5.4 24:00前;
    • full-info训练,据以往实验结果设计以下方案:
 输出层全连接部分替换为d-vector后,给予较长时间训练收敛至正常水平,再进行下一步替换,使用的训练集为阿里众包数据(保留部分测试集数据),模型输出时间5.5 24:00前;
    • LID 模型及测试结果输出,完成日期5.4 24:00前;
    • 大规模SRE模型交付
   基于SRE标准测试集,比较新旧各模型的优劣,并列出各条件下性能指标,供工程选择,完成时间5.6 24:00前。