“Hulan-2014-10-17”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
Lr讨论 | 贡献
 
第14行: 第14行:
 
* Structure Knowledge from teacher wang
 
* Structure Knowledge from teacher wang
 
:* Template  information:
 
:* Template  information:
::*33
+
::* add the attribute to the template and answer.like 如何办理户口 -> {木里县}:具体咨询当地相关部门。
 
+
:* Build Knowledge or computer representation
===建议===
+
::* the tree of knowledge representation. currently represention may include the ontology of knowledge in specific(like triples),the strong relation of freebase.
* 模板信息利用
+
:* transform of static knowledge and dynamic knowledge
:* 属性的添加,及属性对应的答案对应。主要属性的形式如何来设定。例如:如何办理户口-{木里县}:具体咨询当地相关部门。
+
::* answer select using node of knowledge ,like 我该怎么办理户口呢" -> [户口] [办理] -> answer."我该怎么办理户口呢,具体流程是什么" -> [户口] [办理] [流程]-> answer.
:* 树形结构的建立,既知识的从属性和答案的对应。复杂问题的回答需要答案组合,树形选择及抽取。如"我该怎么办理户口呢" -> [户口] [办理] -> answer."我该怎么办理户口呢,具体流程是什么" -> [户口] [办理] [流程]-> answer
+
::* some others.
* 知识表示的建立
+
* convert customer data to our data(like nanshandata)
:* 如何建立树形知识表示,需要详细讨论考虑,有如下现有的技术。
+
:* answer classification
:* 特定领域的本体表示(如书,歌曲,歌手),可利用关系数据库
+
:* question classification
:* freebase 的强关系表示。
+
:* knowledge base,既答案是由本体的组合建立答案。将问题转化为knowledge中的节点,从而产生答案。
+
* 静态知识与动态知识的转化
+
:*
+
:* 如何从静态知识表示到问题对象,如"如何办理户口的流程"-> 本体:户口,动作:办理,属性:流程。
+
:* 定义静态知识到动态对象的中间转化,既利用问题解析来限制静态知识的查找。
+
==次序及容错==
+
* 次序颠倒
+
:* idf value from sougou and xingchao
+
:* 同义词扩展
+
:* tag
+
* 容错
+
:* ngram 
+
==问答流程==
+
*
+
==客户数据转化==
+
* 基于答案分类
+
* 基于问题进行分类,大分类+小标签
+
*
+
==知识库在线学习==
+
 
+
=Dialog system=
+
 
+
== Coordination ==
+
 
+
* inter student is needed
+
* code synchronization
+
:*  git of tsinghua to design core algorithm,"git@192.168.0.51:textproc/productdevelopment.git"
+
:* svn of huilan to design web application
+
 
+
==algorithm==
+
 
+
* query rewrite will to use stanford tools and waiting a intern.[http://www-nlp.stanford.edu/software/sempre/]
+
* GA algorithm finished and waiting to test the parameter
+
 
+
==System implementation==
+
 
+
* container-component framework finalized
+
* Yongtao will help to design a labeling platform
+
 
+
=From Xinkai=
+
 
+
本周议题:
+
 
+
* 上周遗留问题进展审视;
+
 
+
:* 开发计划讨论和对齐;
+
:# 邢超正在做的词向量方法暂停,改为验证stanford的复述工具;
+
:#“基于实体、问题类别、文法自动生成/匹配模板”加入开发计划,启动时间待定;
+
:# 其它计划继续不变,进度正常;
+
:* 核心擎部分代码框架讨论;
+
:# 根据王老师的思路和重构过程中遇到的问题一起进行了讨论完善;
+
* 其它
+
后续训练集,评测集和评测结果要纳入统一的管理,责任人:杜新凯
+

2014年10月17日 (五) 08:22的最后版本

Dialog system

plan to be done

  • Spell mistake : xingchao
  • using ngram to get candidate sentence.
  • order problem : liurong
  • add vsm and BM25 to strengthen the ability of search.
  • Synonyms word to extract information.like "办理"->"办",“办理”
  • the good IDF to suit the government domain.may the word important from Sogou search.
  • tag

plan to discuss

  • Structured Knowledge from duxingkai
  • template structure :{本体类}-{范围,限定}-{动作}:{户口}-{木里县,残疾人}-{办理,补办},办理项模板:{办理流程,如何办理}
  • knowledge map: ontology , instance and action. it is to presented to the user.
  • Structure Knowledge from teacher wang
  • Template information:
  • add the attribute to the template and answer.like 如何办理户口 -> {木里县}:具体咨询当地相关部门。
  • Build Knowledge or computer representation
  • the tree of knowledge representation. currently represention may include the ontology of knowledge in specific(like triples),the strong relation of freebase.
  • transform of static knowledge and dynamic knowledge
  • answer select using node of knowledge ,like 我该怎么办理户口呢" -> [户口] [办理] -> answer."我该怎么办理户口呢,具体流程是什么" -> [户口] [办理] [流程]-> answer.
  • some others.
  • convert customer data to our data(like nanshandata)
  • answer classification
  • question classification