论文摘要
论坛中含有大量有价值的、由用户讨论生成的数据,从中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统的性能、扩充聊天机器人的知识库等。本文研究从论坛中挖掘问答数据的信息抽取方法,包括两个重点内容:一是问题检测,二是答案检测。本文提出了基于标记序列模式的分类方法从论坛数据中检测问题,这种方法在不失准确率的前提下,能大大提高召回率。基于图的排序算法在信息检索领域的应用非常成功,本文受其启发,提出了基于图的迭代方法为抽取出的问题寻找答案。在建立备选答案之间的加权有向图时,综合考虑了多个因素,如备选答案之间的相关性、问题和答案的距离、答案作者的权威度等,并将它们线性组合作为边的权重。在图的迭代中采用了两种方法,分别为有初始值的迭代和无初始值的迭代。同时,提出了多种与已有的信息检索的模型结合使用的方法。在小规模人工标注的论坛数据上的实验结果表明,问题检测阶段的准确率和召回率均明显优于任何已有的算法,答案检测阶段的MRR、MAP等各项指标也均优于其它的算法。之后,又在大规模的论坛数据上做了实验,抽样检验结果证明了本文方法在大规模论坛数据上同样具有有效性。
论文目录
摘要ABSTRACT第一章 绪论1.1 问题的提出及背景1.1.1 问题检测1.1.2 答案检测1.2 本文主要工作1.3 论文的结构第二章 相关工作2.1 知识获取2.2 电子邮件中的问答挖掘2.3 TREC2.4 CQA 和FAQ 检索2.4.1 词汇鸿沟2.4.2 查询扩展2.5 迭代模型2.5.1 PageRank 和HITS2.5.2 LexRank2.6 LSP2.7 分类模型2.7.1 SVM2.7.2 决策树2.8 本章小结第三章 问题检测算法3.1 LSP3.1.1 包含3.1.2 支持度3.1.3 置信度3.1.4 示例3.2 词性标注3.3 算法概述3.3.1 数据3.3.2 词性标注3.3.3 LSP 挖掘3.3.4 生成特征数据3.3.5 分类3.3.6 整体流程图3.4 本章小结第四章 答案检测算法4.1 预备知识4.1.1 Cosine similarity4.1.2 Query likelihood4.1.3 KL-divergence4.1.4 基于分类的重排序4.2 基于图的迭代方法4.2.1 建图4.2.2 计算相关性4.3 与其它方法的集成4.3.1 与其它IR 模型集成4.3.2 与分类模型集成4.3.3 互信息4.4 本章小结第五章 实验5.1 数据5.1.1 数据来源5.1.2 问题检测数据5.1.3 答案检测数据5.2 问题检测5.2.1 度量方法5.2.2 实验结果5.3 答案检测5.3.1 度量方法5.3.2 记法介绍5.3.3 标注数据上的实验结果5.3.4 其它数据上的实验结果5.4 本章小结第六章 结论与展望参考文献发表论文和参加科研情况说明致谢
相关论文文献
标签:论坛数据论文; 问答挖掘论文; 信息抽取论文; 标记序列模式论文; 基于图的排序论文;