基于论坛数据的问答挖掘

基于论坛数据的问答挖掘

论文摘要

论坛中含有大量有价值的、由用户讨论生成的数据,从中可挖掘出大量的问答数据,而这些数据可进一步用于改善问答系统的性能、扩充聊天机器人的知识库等。本文研究从论坛中挖掘问答数据的信息抽取方法,包括两个重点内容:一是问题检测,二是答案检测。本文提出了基于标记序列模式的分类方法从论坛数据中检测问题,这种方法在不失准确率的前提下,能大大提高召回率。基于图的排序算法在信息检索领域的应用非常成功,本文受其启发,提出了基于图的迭代方法为抽取出的问题寻找答案。在建立备选答案之间的加权有向图时,综合考虑了多个因素,如备选答案之间的相关性、问题和答案的距离、答案作者的权威度等,并将它们线性组合作为边的权重。在图的迭代中采用了两种方法,分别为有初始值的迭代和无初始值的迭代。同时,提出了多种与已有的信息检索的模型结合使用的方法。在小规模人工标注的论坛数据上的实验结果表明,问题检测阶段的准确率和召回率均明显优于任何已有的算法,答案检测阶段的MRR、MAP等各项指标也均优于其它的算法。之后,又在大规模的论坛数据上做了实验,抽样检验结果证明了本文方法在大规模论坛数据上同样具有有效性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 问题的提出及背景
  • 1.1.1 问题检测
  • 1.1.2 答案检测
  • 1.2 本文主要工作
  • 1.3 论文的结构
  • 第二章 相关工作
  • 2.1 知识获取
  • 2.2 电子邮件中的问答挖掘
  • 2.3 TREC
  • 2.4 CQA 和FAQ 检索
  • 2.4.1 词汇鸿沟
  • 2.4.2 查询扩展
  • 2.5 迭代模型
  • 2.5.1 PageRank 和HITS
  • 2.5.2 LexRank
  • 2.6 LSP
  • 2.7 分类模型
  • 2.7.1 SVM
  • 2.7.2 决策树
  • 2.8 本章小结
  • 第三章 问题检测算法
  • 3.1 LSP
  • 3.1.1 包含
  • 3.1.2 支持度
  • 3.1.3 置信度
  • 3.1.4 示例
  • 3.2 词性标注
  • 3.3 算法概述
  • 3.3.1 数据
  • 3.3.2 词性标注
  • 3.3.3 LSP 挖掘
  • 3.3.4 生成特征数据
  • 3.3.5 分类
  • 3.3.6 整体流程图
  • 3.4 本章小结
  • 第四章 答案检测算法
  • 4.1 预备知识
  • 4.1.1 Cosine similarity
  • 4.1.2 Query likelihood
  • 4.1.3 KL-divergence
  • 4.1.4 基于分类的重排序
  • 4.2 基于图的迭代方法
  • 4.2.1 建图
  • 4.2.2 计算相关性
  • 4.3 与其它方法的集成
  • 4.3.1 与其它IR 模型集成
  • 4.3.2 与分类模型集成
  • 4.3.3 互信息
  • 4.4 本章小结
  • 第五章 实验
  • 5.1 数据
  • 5.1.1 数据来源
  • 5.1.2 问题检测数据
  • 5.1.3 答案检测数据
  • 5.2 问题检测
  • 5.2.1 度量方法
  • 5.2.2 实验结果
  • 5.3 答案检测
  • 5.3.1 度量方法
  • 5.3.2 记法介绍
  • 5.3.3 标注数据上的实验结果
  • 5.3.4 其它数据上的实验结果
  • 5.4 本章小结
  • 第六章 结论与展望
  • 参考文献
  • 发表论文和参加科研情况说明
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于论坛数据的问答挖掘
    下载Doc文档

    猜你喜欢