“Hulan-2014-10-24”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
(以“本周议题: 1 项目情况和系统侧进展通报 2 进展反馈和计划对齐(算法侧) 2.1 知识库结构优化方案大框架已经通过,遗留...”为内容创建页面)
 
Lr讨论 | 贡献
第1行: 第1行:
本周议题:
+
==by duxk==
1 项目情况和系统侧进展通报
+
==本周议题===
2 进展反馈和计划对齐(算法侧)
+
*1 项目情况和系统侧进展通报
 +
*2 进展反馈和计划对齐(算法侧)
 +
:2.1 知识库结构优化方案大框架已经通过,遗留如下3个具体问题还需要再细化:
 +
::*1) 带条件查询(如地区),先按分类再取候选,还是先取候选再应用属性,目前看后者更灵活;
 +
::*2)带组合属性限制查询无答案情况下,如何回溯到较少属性限制或者无属性限制的答案
 +
::*3) 查询如何表达式化(引入and、or等逻辑关系)  (因为时间关系今天没有来得及讨论)
 +
:责任人:杜新凯,时间点:下周二
  
 +
:2.2 词序颠倒问题
 +
::*2.2.1 词袋模型代码已经实现,但是目前只使用了领域内的tf-idf, 领域词区分不明显,计划使用领域外+领域内tf-idf组合在一起。
 +
:责任人:刘荣.时间点:下周五前
 +
::*2.2.2 研究在不修改lucene代码的前提下,通过自定义接口增强lucene的打分算法。
 +
:责任人:刘荣(跟永涛交流一下).时间点:下周五前输出调研报告
  
2.1 知识库结构优化方案大框架已经通过,遗留如下3个具体问题还需要再细化:
 
1) 带条件查询(如地区),先按分类再取候选,还是先取候选再应用属性,目前看后者更灵活;
 
2)带组合属性限制查询无答案情况下,如何回溯到较少属性限制或者无属性限制的答案
 
3) 查询如何表达式化(引入and、or等逻辑关系)  (因为时间关系今天没有来得及讨论)
 
  
 +
:2.3 输入纠错问题
 +
::*语言模型已经具备,缺少领域词,demo推迟到下周五。
 +
:责任人:邢超.时间点:下周五
  
责任人:杜新凯,
 
时间点:下周二
 
  
 +
:2.4 模型分析
 +
:从以下维度输出测试结果:
 +
::*1) 当前版本(lucene+fuzzyingmatch)
 +
::*2) 只用lucene
 +
::*3) lucene +bag of word + fuzzyingmatch
 +
::*4) 只用lucene情况下,目标模板在候选模板中的最好排序,平均排序,最坏排序
 +
::*5) lucene+fuzzyingmatch情况下,目标模板在候选模板中的最好排序,平均排序,最坏排序
  
2.2 词序颠倒问题
+
:责任人:曹立.时间点:1+2+3,下周三前;4+5, 下周五前
 
+
 
+
2.2.1 词袋模型代码已经实现,但是目前只使用了领域内的tf-idf, 领域词区分不明显,计划使用领域外+领域内tf-idf组合在一起。
+
责任人:刘荣
+
时间点:下周五前
+
2.2.2 研究在不修改lucene代码的前提下,通过自定义接口增强lucene的打分算法。
+
责任人:刘荣(跟永涛交流一下)
+
时间点:下周五前输出调研报告
+
 
+
 
+
2.3 输入纠错问题
+
 
+
 
+
语言模型已经具备,缺少领域词,demo推迟到下周五。
+
责任人:邢超
+
时间点:下周五
+
 
+
 
+
2.4 模型分析
+
 
+
 
+
从以下维度输出测试结果:
+
1) 当前版本(lucene+fuzzyingmatch)
+
2) 只用lucene
+
3) lucene +bag of word + fuzzyingmatch
+
4) 只用lucene情况下,目标模板在候选模板中的最好排序,平均排序,最坏排序
+
5) lucene+fuzzyingmatch情况下,目标模板在候选模板中的最好排序,平均排序,最坏排序
+
 
+
 
+
责任人:曹立
+
时间点:1+2+3,下周三前;4+5, 下周五前
+

2014年10月24日 (五) 06:13的版本

by duxk

本周议题=

  • 1 项目情况和系统侧进展通报
  • 2 进展反馈和计划对齐(算法侧)
2.1 知识库结构优化方案大框架已经通过,遗留如下3个具体问题还需要再细化:
  • 1) 带条件查询(如地区),先按分类再取候选,还是先取候选再应用属性,目前看后者更灵活;
  • 2)带组合属性限制查询无答案情况下,如何回溯到较少属性限制或者无属性限制的答案
  • 3) 查询如何表达式化(引入and、or等逻辑关系) (因为时间关系今天没有来得及讨论)
责任人:杜新凯,时间点:下周二
2.2 词序颠倒问题
  • 2.2.1 词袋模型代码已经实现,但是目前只使用了领域内的tf-idf, 领域词区分不明显,计划使用领域外+领域内tf-idf组合在一起。
责任人:刘荣.时间点:下周五前
  • 2.2.2 研究在不修改lucene代码的前提下,通过自定义接口增强lucene的打分算法。
责任人:刘荣(跟永涛交流一下).时间点:下周五前输出调研报告


2.3 输入纠错问题
  • 语言模型已经具备,缺少领域词,demo推迟到下周五。
责任人:邢超.时间点:下周五


2.4 模型分析
从以下维度输出测试结果:
  • 1) 当前版本(lucene+fuzzyingmatch)
  • 2) 只用lucene
  • 3) lucene +bag of word + fuzzyingmatch
  • 4) 只用lucene情况下,目标模板在候选模板中的最好排序,平均排序,最坏排序
  • 5) lucene+fuzzyingmatch情况下,目标模板在候选模板中的最好排序,平均排序,最坏排序
责任人:曹立.时间点:1+2+3,下周三前;4+5, 下周五前