“2014-1-20 summary-team”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
(以内容“2014-1-20--------总结----------------- 我根据大家的wiki staus总结了我们目前做的几个方向及状态,其中只包括大家在这几个方...”创建新页面)
 
Lr讨论 | 贡献
第34行: 第34行:
 
           状态:完成,已经将Nbest提供给谭彻;最后的效果达到7.8%(wer)  
 
           状态:完成,已经将Nbest提供给谭彻;最后的效果达到7.8%(wer)  
 
   
 
   
  五 学习  
+
五 学习  
       1. 最大似然估计和EM算法学习==小白  
+
       1. 最大似然估计和EM算法学习==小白  
 
             状态:大家已明白,感谢小白  
 
             状态:大家已明白,感谢小白  
       2. Improving word representations via global context and multiple word prototypes==富合  
+
       2. Improving word representations via global context and multiple word prototypes==富合  
 
           状态:还有需要解决的问题,一词多向量的具体公式和训练。感谢富合  
 
           状态:还有需要解决的问题,一词多向量的具体公式和训练。感谢富合  
       3.sena 中的词向量在NLP的应用 ==晓曦  
+
       3. sena 中的词向量在NLP的应用 ==晓曦  
 
           状态:已经明白,感谢晓曦  
 
           状态:已经明白,感谢晓曦  
 
   
 
   
 
总结:  
 
总结:  
 
     1.  感谢大家这么辛苦的工作,使得我们的进度很快,同时大家也共同学习到了很多知识,感谢大家和王老师。  
 
     1.  感谢大家这么辛苦的工作,使得我们的进度很快,同时大家也共同学习到了很多知识,感谢大家和王老师。  
      2.  上次开会时,王老师给我们了一些方向和建议。我整理了一下:  
+
    2.  上次开会时,王老师给我们了一些方向和建议。我整理了一下:  
 
           2.1  训练词向量的方法整理。由于目前大家做了一些的训练工作,大家整理自己相关的方法(论文),发给小白,给大家整理一下。其中,  
 
           2.1  训练词向量的方法整理。由于目前大家做了一些的训练工作,大家整理自己相关的方法(论文),发给小白,给大家整理一下。其中,  
 
                       googleword2vec由赵芳,梦圆和刘荣整理;  
 
                       googleword2vec由赵芳,梦圆和刘荣整理;  
第52行: 第52行:
 
                       Sena==晓曦  
 
                       Sena==晓曦  
 
                     当然很有很多,大家看到就收集一下,我们一块学习。感谢小白。  
 
                     当然很有很多,大家看到就收集一下,我们一块学习。感谢小白。  
            2.2 基于词向量的分词算法探究==晓曦  
+
          2.2 基于词向量的分词算法探究==晓曦  
 
                   其中,有一篇中文论文或许对你有帮助:”基于表示学习的中文分词算法探索“,在共享空间-公开/paper/word2vec application   
 
                   其中,有一篇中文论文或许对你有帮助:”基于表示学习的中文分词算法探索“,在共享空间-公开/paper/word2vec application   
            2.3  word2vec的测试平台(基于sena)==晓曦  
+
          2.3  word2vec的测试平台(基于sena)==晓曦  
 
                   测试我们目前已经训练的中文词向量的效果,感谢晓曦。  
 
                   测试我们目前已经训练的中文词向量的效果,感谢晓曦。  
      以上是上周五的一些方向,也是我们的基础。当然中文词向量的训练,我们也要继续。晓曦的任务比较多,辛苦了。  
+
    以上是上周五的一些方向,也是我们的基础。当然中文词向量的训练,我们也要继续。晓曦的任务比较多,辛苦了。  
 
   
 
   
 
     部分同志这周就要回家了,不过我们还是要努力把目前的工作弄完,在年前有个好的基础。同时,大家回家一路顺风。  
 
     部分同志这周就要回家了,不过我们还是要努力把目前的工作弄完,在年前有个好的基础。同时,大家回家一路顺风。  
 
                 致谢!  
 
                 致谢!  
 
                                                                                                                                                                                                                                                                                                                                                 刘荣
 
                                                                                                                                                                                                                                                                                                                                                 刘荣

2014年2月6日 (四) 03:10的版本

2014-1-20--------总结-----------------

      我根据大家的wiki staus总结了我们目前做的几个方向及状态,其中只包括大家在这几个方向上的工作,其它的未列出。 
         这份总结仅供 王老师和我们查看整个组的进度,这样大家可以互相学习,共同进步。有什么遗漏或者错误的地方,欢迎大家指出。 

一 word2vec train

    1. Google wor2vec 已经训练完词和字的向量 ==梦圆 
       语料:人民日报4.0 
       分词:20w+scw 
       状态:  完成 
    2. Huang 增强语义的词向量训练==富合 
        语料:人民日报4.0 
        分词: 20w+scw 
        状态:数据准备,今晚可训练 
    3. C&W-Tuian 词向量训练 ==梦圆 
         语料:人民日报4.0 
         分词:20w+scw 
         状态:代码整理中,正在安装相应的库 
    4. cslm(NNLM)字的ngram==刘荣 
          语料:500M from QA-Corpus 
          参数:9-ngram+12134字+p258h384 
          状态:已经完成,准备测试Nbest 
  

二 word2vec application

     1. SENA ==晓曦 
          状态:已经熟悉Sena Toolkit 
 

三 QA-book

    1. 基于FST的模板匹配==赵芳 
        状态:已经完成相应的文献查阅,进行算法设计和构图中。 
 

四 n-gram

     1. QA-Music 的语言模型构建==学升 
         语言模型:增加2000歌手和5000歌曲+150M音乐问题语料 
         状态:完成,已经将Nbest提供给谭彻;最后的效果达到7.8%(wer) 

五 学习

      1. 最大似然估计和EM算法学习==小白 
           状态:大家已明白,感谢小白 
      2. Improving word representations via global context and multiple word prototypes==富合 
          状态:还有需要解决的问题,一词多向量的具体公式和训练。感谢富合 
      3. sena 中的词向量在NLP的应用 ==晓曦 
          状态:已经明白,感谢晓曦 

总结:

    1.  感谢大家这么辛苦的工作,使得我们的进度很快,同时大家也共同学习到了很多知识,感谢大家和王老师。 
    2.  上次开会时,王老师给我们了一些方向和建议。我整理了一下: 
          2.1  训练词向量的方法整理。由于目前大家做了一些的训练工作,大家整理自己相关的方法(论文),发给小白,给大家整理一下。其中, 
                     googleword2vec由赵芳,梦圆和刘荣整理; 
                     cslm(NNLM) 刘荣 
                     Huang==富合 
                     C&W-Tuian==梦圆 
                     Sena==晓曦 
                   当然很有很多,大家看到就收集一下,我们一块学习。感谢小白。 
          2.2 基于词向量的分词算法探究==晓曦 
                  其中,有一篇中文论文或许对你有帮助:”基于表示学习的中文分词算法探索“,在共享空间-公开/paper/word2vec application  
          2.3  word2vec的测试平台(基于sena)==晓曦 
                  测试我们目前已经训练的中文词向量的效果,感谢晓曦。 
   以上是上周五的一些方向,也是我们的基础。当然中文词向量的训练,我们也要继续。晓曦的任务比较多,辛苦了。 

   部分同志这周就要回家了,不过我们还是要努力把目前的工作弄完,在年前有个好的基础。同时,大家回家一路顺风。 
                致谢! 
                                                                                                                                                                                                                                                                                                                                                刘荣