Text-2014-08-28
来自cslt Wiki
一 Bilingual word embedding for phrase-based machine translation:
1.获得思路:
以前是先分别训练词向量,再做transform.这篇文文章在训练词向量的同时,还利用了语料中的对齐信息.
1.1 学习对齐信息,即学习A(对齐矩阵)
1.2 先学习transform,在学习词向量,进行迭代学习。
1.3 将论文中的公式(5)和公式(6)同时考虑放在学习中。
二 Continuous space translation models with NN
1. 利用标准的wsj语料训练RNNLM,看测试结果是否变好.
1.1 训练语料:/nfs/disk/perm/data/corpora/wsj/data/wsj0/doc/lng_modl/lm_train
2. 标准化测试集和训练集
3. 查看邢超推荐的NNLM的训练流程
Recorded by Rong Liu