“FreeNeb project big model SRE status Report 2018-05-02”版本间的差异
来自cslt Wiki
(以“大规模SRE训练相关: 1)组织对阿里众包数据进行初选; 2)验证full-info训练,目前的结论: 目标个数较多时(如几千),...”为内容创建页面) |
|||
(相同用户的一个中间修订版本未显示) | |||
第1行: | 第1行: | ||
− | 大规模SRE训练相关: | + | *大规模SRE训练相关: |
− | + | **组织对阿里众包数据进行初选; | |
− | + | **验证full-info训练,目前的结论: | |
目标个数较多时(如几千),即使局部小规模(如几百人)逐步替换输出层全连接,也会牵一发而动全身,使得模型损失陡增,无法在短时间内收敛,故替换不能太频繁,并需要预留较长时间使得模型收敛; | 目标个数较多时(如几千),即使局部小规模(如几百人)逐步替换输出层全连接,也会牵一发而动全身,使得模型损失陡增,无法在短时间内收敛,故替换不能太频繁,并需要预留较长时间使得模型收敛; | ||
对训练得差不多的网络输出层全连接进行初始化,无论是随机化还是换成特定参数,再经过足够训练轮数达到收敛,都能增强网络泛化能力,这与ASR相关实验结果吻合,好比自身对自身的迁移学习,对于SRE,输出层全连接进行d-vector替换,效果更佳; | 对训练得差不多的网络输出层全连接进行初始化,无论是随机化还是换成特定参数,再经过足够训练轮数达到收敛,都能增强网络泛化能力,这与ASR相关实验结果吻合,好比自身对自身的迁移学习,对于SRE,输出层全连接进行d-vector替换,效果更佳; | ||
是否length normalize输出层全连接对模型性能影响不大,也适用于大规模模型,与batch normalization有相似性。 | 是否length normalize输出层全连接对模型性能影响不大,也适用于大规模模型,与batch normalization有相似性。 | ||
− | |||
− | |||
− | |||
− | 未来一周工作: | + | *未来一周工作: |
− | + | **协助完成SRE标准测试集的进一步梳理及已有模型结果输出,完成时间5.4 24:00前; | |
− | + | **full-info训练,据以往实验结果设计以下方案: | |
− | + | 输出层全连接部分替换为d-vector后,给予较长时间训练收敛至正常水平,再进行下一步替换,使用的训练集为阿里众包数据(保留部分测试集数据),模型输出时间5.5 24:00前; | |
− | + | **LID 模型及测试结果输出,完成日期5.4 24:00前; | |
− | + | **大规模SRE模型交付 | |
基于SRE标准测试集,比较新旧各模型的优劣,并列出各条件下性能指标,供工程选择,完成时间5.6 24:00前。 | 基于SRE标准测试集,比较新旧各模型的优劣,并列出各条件下性能指标,供工程选择,完成时间5.6 24:00前。 |
2018年5月2日 (三) 09:09的最后版本
- 大规模SRE训练相关:
- 组织对阿里众包数据进行初选;
- 验证full-info训练,目前的结论:
目标个数较多时(如几千),即使局部小规模(如几百人)逐步替换输出层全连接,也会牵一发而动全身,使得模型损失陡增,无法在短时间内收敛,故替换不能太频繁,并需要预留较长时间使得模型收敛; 对训练得差不多的网络输出层全连接进行初始化,无论是随机化还是换成特定参数,再经过足够训练轮数达到收敛,都能增强网络泛化能力,这与ASR相关实验结果吻合,好比自身对自身的迁移学习,对于SRE,输出层全连接进行d-vector替换,效果更佳; 是否length normalize输出层全连接对模型性能影响不大,也适用于大规模模型,与batch normalization有相似性。
- 未来一周工作:
- 协助完成SRE标准测试集的进一步梳理及已有模型结果输出,完成时间5.4 24:00前;
- full-info训练,据以往实验结果设计以下方案:
输出层全连接部分替换为d-vector后,给予较长时间训练收敛至正常水平,再进行下一步替换,使用的训练集为阿里众包数据(保留部分测试集数据),模型输出时间5.5 24:00前;
- LID 模型及测试结果输出,完成日期5.4 24:00前;
- 大规模SRE模型交付
基于SRE标准测试集,比较新旧各模型的优劣,并列出各条件下性能指标,供工程选择,完成时间5.6 24:00前。