Hulan-2014-10-17

来自cslt Wiki
2014年10月17日 (五) 07:36Lr讨论 | 贡献的版本

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至: 导航搜索

Dialog system

plan to be done

  • Spell mistake : xingchao
  • using ngram to get candidate sentence.
  • order problem : liurong
  • add vsm and BM25 to strengthen the ability of search.
  • Synonyms word to extract information.like "办理"->"办",“办理”
  • the good IDF to suit the government domain.may the word important from Sogou search.
  • tag

plan to discuss

  • Structured Knowledge from duxingkai
  • structure :{本体类}-{范围,限定}-{动作}:{户口}-{木里县,残疾人}-{办理,补办},办理项模板:{办理流程,如何办理}
  • knowledge map: ontology , instance and action. it is to presented to the user.
  • Structure Knowledge from teacher wang
  • Template

建议

  • 模板信息利用
  • 属性的添加,及属性对应的答案对应。主要属性的形式如何来设定。例如:如何办理户口-{木里县}:具体咨询当地相关部门。
  • 树形结构的建立,既知识的从属性和答案的对应。复杂问题的回答需要答案组合,树形选择及抽取。如"我该怎么办理户口呢" -> [户口] [办理] -> answer."我该怎么办理户口呢,具体流程是什么" -> [户口] [办理] [流程]-> answer
  • 知识表示的建立
  • 如何建立树形知识表示,需要详细讨论考虑,有如下现有的技术。
  • 特定领域的本体表示(如书,歌曲,歌手),可利用关系数据库
  • freebase 的强关系表示。
  • knowledge base,既答案是由本体的组合建立答案。将问题转化为knowledge中的节点,从而产生答案。
  • 静态知识与动态知识的转化
  • 如何从静态知识表示到问题对象,如"如何办理户口的流程"-> 本体:户口,动作:办理,属性:流程。
  • 定义静态知识到动态对象的中间转化,既利用问题解析来限制静态知识的查找。

次序及容错

  • 次序颠倒
  • idf value from sougou and xingchao
  • 同义词扩展
  • tag
  • 容错
  • ngram

问答流程

客户数据转化

  • 基于答案分类
  • 基于问题进行分类,大分类+小标签

知识库在线学习

Dialog system

Coordination

  • inter student is needed
  • code synchronization
  • git of tsinghua to design core algorithm,"git@192.168.0.51:textproc/productdevelopment.git"
  • svn of huilan to design web application

algorithm

  • query rewrite will to use stanford tools and waiting a intern.[1]
  • GA algorithm finished and waiting to test the parameter

System implementation

  • container-component framework finalized
  • Yongtao will help to design a labeling platform

From Xinkai

本周议题:

  • 上周遗留问题进展审视;
  • 开发计划讨论和对齐;
  1. 邢超正在做的词向量方法暂停,改为验证stanford的复述工具;
  2. “基于实体、问题类别、文法自动生成/匹配模板”加入开发计划,启动时间待定;
  3. 其它计划继续不变,进度正常;
  • 核心擎部分代码框架讨论;
  1. 根据王老师的思路和重构过程中遇到的问题一起进行了讨论完善;
  • 其它

后续训练集,评测集和评测结果要纳入统一的管理,责任人:杜新凯