“L2r 集成问答系统”版本间的差异
来自cslt Wiki
(→liangshanzhou data) |
(→liangshanzhou data) |
||
(相同用户的16个中间修订版本未显示) | |||
第1行: | 第1行: | ||
=test record= | =test record= | ||
==liangshanzhou data== | ==liangshanzhou data== | ||
− | *knowledge data | + | *knowledge data:凉山州政务知识训练集1016 |
*test data | *test data | ||
:* test num:1596 | :* test num:1596 | ||
− | *feature | + | :* testJ |
− | :* | + | * feature |
+ | :* feature1 | ||
+ | QuestionMatchDefaultScore,//问题模板tf*idf分数 | ||
+ | StandardQuestionMatchDefaultScore,//标准问题tf*idf分数 | ||
+ | QuestionMatchBM25Score,//问题模板匹配BM25分数 | ||
+ | StandardQuestionMatchBM25Score,//标准问题BM25分数 | ||
+ | QuestionMatchDFRScore,//问题模板匹配DFR分数 | ||
+ | StandardQuestionMatchDFRScore,//标准问题DFR分数 | ||
+ | QuestionMatchIBScore,//问题模板匹配IB分数 | ||
+ | StandardQuestionMatchIBScore,//标准问题IB分数 | ||
+ | QuestionMatchLMDirichletScore,//问题模板匹配LMDirichlet分数 | ||
+ | StandardQuestionMatchLMDirichletScore,//标准问题LMDirichlet分数 | ||
+ | QuestionMatchLMJelinekMercerScore,//问题模板匹配LMJelinekMercer分数 | ||
+ | StandardQuestionMatchLMJelinekMercerScore,//标准问题LMJelinekMercer分数 | ||
+ | QuestionLength,//问题模板的长度 | ||
+ | StandardQuestionLength,//标准问题的长度 | ||
+ | QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值 | ||
+ | QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值 | ||
+ | QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0 | ||
+ | QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0 | ||
+ | QuestionHaveNER,//问题模板是否含有命名体识别 | ||
+ | StandardQuestionHaveNER, // //标准问题是否含有命名体识别 | ||
+ | |||
+ | :* feature2 | ||
+ | QuestionMatchDefaultScore,//问题模板tf*idf分数 | ||
+ | QuestionLength,//问题模板的长度 | ||
+ | StandardQuestionLength,//标准问题的长度 | ||
+ | QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值 | ||
+ | QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值 | ||
+ | QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0 | ||
+ | QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0 | ||
+ | QuestionHaveNER,//问题模板是否含有命名体识别 | ||
+ | StandardQuestionHaveNER, // //标准问题是否含有命名体识别 | ||
* test result | * test result | ||
:* only lucene | :* only lucene | ||
− | + | ::*Correct Rate:0.6165413533834586 | |
− | :* | + | ::* time(ms):avg(4.41)/max(112) |
+ | ::* coverage(50):0.8959899749373433 | ||
+ | :* l2r-stochasctic method with feature2 | ||
+ | ::* correct rate:0.6491228070175439 | ||
+ | ::* time(ms):avg(81.63)/max(260) | ||
+ | ::* coverage(50):0.8959899749373433 | ||
+ | :* l2r-listNet method with feature2 | ||
+ | ::* correct rate:0.6422305764411027 | ||
+ | ::* time(ms):avg(79)/max(289) | ||
+ | ::* coverage(50):0.8959899749373433 | ||
+ | |||
+ | :* l2r-stochasctic method with feature1 | ||
+ | ::* correct rate:0.6278195488721805 | ||
+ | ::* time(ms):avg(377)/max(1133) | ||
+ | ::* coverage(50):0.8978696741854637 | ||
+ | :* l2r-listNet method with feature1 | ||
+ | ::* correct rate:0.6278195488721805 | ||
+ | ::* time(ms):avg(369)/max(1076) | ||
+ | ::* coverage(50):0.8978696741854637 |
2015年5月21日 (四) 08:14的最后版本
test record
liangshanzhou data
- knowledge data:凉山州政务知识训练集1016
- test data
- test num:1596
- testJ
- feature
- feature1
QuestionMatchDefaultScore,//问题模板tf*idf分数 StandardQuestionMatchDefaultScore,//标准问题tf*idf分数 QuestionMatchBM25Score,//问题模板匹配BM25分数 StandardQuestionMatchBM25Score,//标准问题BM25分数 QuestionMatchDFRScore,//问题模板匹配DFR分数 StandardQuestionMatchDFRScore,//标准问题DFR分数 QuestionMatchIBScore,//问题模板匹配IB分数 StandardQuestionMatchIBScore,//标准问题IB分数 QuestionMatchLMDirichletScore,//问题模板匹配LMDirichlet分数 StandardQuestionMatchLMDirichletScore,//标准问题LMDirichlet分数 QuestionMatchLMJelinekMercerScore,//问题模板匹配LMJelinekMercer分数 StandardQuestionMatchLMJelinekMercerScore,//标准问题LMJelinekMercer分数 QuestionLength,//问题模板的长度 StandardQuestionLength,//标准问题的长度 QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值 QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值 QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0 QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0 QuestionHaveNER,//问题模板是否含有命名体识别 StandardQuestionHaveNER, // //标准问题是否含有命名体识别
- feature2
QuestionMatchDefaultScore,//问题模板tf*idf分数 QuestionLength,//问题模板的长度 StandardQuestionLength,//标准问题的长度 QueryTermInQuestionOccurRatio,//对query进行分词,分词出现在问题模板中的次数与长度的比值 QueryTermInStandardQuestionOccurRatio,//对query进行分词,分词出现在标准问题的次数与长度的比值 QueryTermOfQuestionOccurRatio,//对query进行分词,分词大部分出现在问题模板中就为1,否则为0 QueryTermOfStandardQuestionOccurRatio,//对query进行分词,分词大部分出现在标准问题中就为1,否则为0 QuestionHaveNER,//问题模板是否含有命名体识别 StandardQuestionHaveNER, // //标准问题是否含有命名体识别
- test result
- only lucene
- Correct Rate:0.6165413533834586
- time(ms):avg(4.41)/max(112)
- coverage(50):0.8959899749373433
- l2r-stochasctic method with feature2
- correct rate:0.6491228070175439
- time(ms):avg(81.63)/max(260)
- coverage(50):0.8959899749373433
- l2r-listNet method with feature2
- correct rate:0.6422305764411027
- time(ms):avg(79)/max(289)
- coverage(50):0.8959899749373433
- l2r-stochasctic method with feature1
- correct rate:0.6278195488721805
- time(ms):avg(377)/max(1133)
- coverage(50):0.8978696741854637
- l2r-listNet method with feature1
- correct rate:0.6278195488721805
- time(ms):avg(369)/max(1076)
- coverage(50):0.8978696741854637