QA test

来自cslt Wiki
2014年9月6日 (六) 02:37Lr讨论 | 贡献的版本

跳转至: 导航搜索

140901

TREC TEST

classification result
Training Set 1000 2000 3000 4000 5500
bigclass 0.678 0.718 0.708 0.708 0.73
smallclass 0.58 0.606 0.606 0.616 0.628

NanShanData

Data Set

  • big class:教育,社保,就业,医疗,住房,婚育收养,证件办理,资质认定,企业开办,经营纳税,公用事业
  • small class:
  • 教育:学期教育,小学教育,初中教育,高中教育,职业教育,继续教育,特殊教育,教育救助
  • 社保:社保征收,养老保险,医疗保险,工伤保险,失业保险,生育医疗保险,老年人福利,残疾人福利,儿童福利,低保,专项救助,临时救助,优待抚恤,就业安置
  • 就业:公务员招考,毕业生就业,人才引进,外地来深建设者就业,失业再就业,退伍军人安置,技能培训,技能鉴定,劳动权益,自主创业
  • 医疗:医疗机构,门诊住院,药品药店,疾病预防,食品药品安全,卫生监督,医疗保险,医疗救助
  • 住房:租房,售房,货币补贴,买卖商品房,二手房买卖,房屋租赁,服务机构及人员,公积金开户,公积金缴存,公积金贷款
  • 婚育收养:结婚,离婚,撤销婚姻,生育服务,计划生育奖励,计划生育技术服务,收养服务
  • 证件办理: 户籍身份,出境入境,驾驶证,教育培训,医疗卫生,司法律师,交通旅游,工程建设,其他类
  • 资质认定:教育机构,食品机构,医疗机构,就业服务机构,旅游服务机构,交通运输机构,房地产机构,工程建设机构,其他机构
  • 企业开办:名称预核准,前置审批,商事主体登记注册,规则审批,消防证件办理,组织机构代码证申请,外商投资企业设立变更,税务登记
  • 经营纳税:企业年报,知识产权,广告业务,信用合同,税务登记,发票业务,申报纳税
  • 公用事业:供水,供电,煤气,污水垃圾处理,文体休闲,园林绿化

140905

  • Test Set
  • label the big class about 1000 query from nanshandata
  • result
Acc of query classification
Parameters keyword_beta keyword_init TFIDF_beta accuracy
title 0 0 1 0.355
0.5 0.1 0.5 0.3588
0.5 0.1 0.5 0.3588
title+description 0 0 1 0.344
0.5 0.1 0.5 0.348