“2014-1-20 summary-team”版本间的差异

2014年2月6日 (四) 03:10的版本

2014-1-20--------总结-----------------

      我根据大家的wiki staus总结了我们目前做的几个方向及状态，其中只包括大家在这几个方向上的工作，其它的未列出。 
         这份总结仅供 王老师和我们查看整个组的进度，这样大家可以互相学习，共同进步。有什么遗漏或者错误的地方，欢迎大家指出。

一 word2vec train

    1. Google wor2vec 已经训练完词和字的向量 ==梦圆 
       语料：人民日报4.0 
       分词：20w+scw 
       状态：  完成 
    2. Huang 增强语义的词向量训练==富合 
        语料：人民日报4.0 
        分词： 20w+scw 
        状态：数据准备，今晚可训练 
    3. C&W-Tuian 词向量训练 ==梦圆 
         语料：人民日报4.0 
         分词：20w+scw 
         状态：代码整理中,正在安装相应的库 
    4. cslm（NNLM）字的ngram==刘荣 
          语料：500M from QA-Corpus 
          参数：9-ngram+12134字+p258h384 
          状态：已经完成，准备测试Nbest

二 word2vec application

     1. SENA ==晓曦 
          状态：已经熟悉Sena Toolkit

三 QA-book

    1. 基于FST的模板匹配==赵芳 
        状态：已经完成相应的文献查阅，进行算法设计和构图中。

四 n-gram

     1. QA-Music 的语言模型构建==学升 
         语言模型：增加2000歌手和5000歌曲+150M音乐问题语料 
         状态：完成，已经将Nbest提供给谭彻；最后的效果达到7.8%（wer）

五学习

      1. 最大似然估计和EM算法学习==小白 
           状态：大家已明白，感谢小白 
      2. Improving word representations via global context and multiple word prototypes==富合 
          状态：还有需要解决的问题，一词多向量的具体公式和训练。感谢富合 
      3. sena 中的词向量在NLP的应用 ==晓曦 
          状态：已经明白，感谢晓曦

总结：

    1.  感谢大家这么辛苦的工作，使得我们的进度很快，同时大家也共同学习到了很多知识，感谢大家和王老师。 
    2.  上次开会时，王老师给我们了一些方向和建议。我整理了一下： 
          2.1  训练词向量的方法整理。由于目前大家做了一些的训练工作，大家整理自己相关的方法（论文），发给小白，给大家整理一下。其中， 
                     googleword2vec由赵芳，梦圆和刘荣整理； 
                     cslm(NNLM) 刘荣 
                     Huang==富合 
                     C&W-Tuian==梦圆 
                     Sena==晓曦 
                   当然很有很多，大家看到就收集一下，我们一块学习。感谢小白。 
          2.2 基于词向量的分词算法探究==晓曦 
                  其中，有一篇中文论文或许对你有帮助：”基于表示学习的中文分词算法探索“，在共享空间-公开/paper/word2vec application  
          2.3  word2vec的测试平台（基于sena）==晓曦 
                  测试我们目前已经训练的中文词向量的效果，感谢晓曦。 
   以上是上周五的一些方向，也是我们的基础。当然中文词向量的训练，我们也要继续。晓曦的任务比较多，辛苦了。 

   部分同志这周就要回家了，不过我们还是要努力把目前的工作弄完，在年前有个好的基础。同时，大家回家一路顺风。 
                致谢！ 
                                                                                                                                                                                                                                                                                                                                                刘荣

“2014-1-20 summary-team”版本间的差异

2014年2月6日 (四) 03:10的版本

导航菜单

个人工具

名字空间

变种

查看

操作

搜索

导航

工具