基于网络挖掘与机器学习技术的相关反馈研究

基于网络挖掘与机器学习技术的相关反馈研究

论文摘要

随着互联网上各种信息的爆炸式增长,人们可获取和利用的信息越来越多的同时,也往往使得人们淹没在信息的海洋中,时常很难找到所需要的信息,这就是人们常说的信息过载(Information Overload)现象。在此背景下,信息检索技术得到迅速的发展,其中互联网搜索引擎是信息检索技术最重要和常见的应用之一。大量的实验表明相关反馈技术是提高信息检索系统性能的有效手段。本文在前人的研究基础上,主要研究了如何挖掘网络资源和使用机器学习技术进一步提高基于查询扩展的相关反馈技术的性能。基于这两方面,本文所做的主要研究工作包括:(1)针对当前大多数相关反馈算法,候选扩展词权重的计算都是使用扩展词在文档级别的统计信息。然而,一篇反馈文档,即使是人工判定为相关的,都可能包含多个主题(topic),显然并不是每个主题都有益于相关反馈算法。本文认为在较小的粒度上使用相关反馈算法更为合理,研究了如何应用主题模型(topic model)从反馈文档中推导出查询相关主题,并应用于相关反馈算法中。(2)传统相关反馈模型中,对不同的反馈文档都是同等的对待,而实际上,不同的反馈文档的质量各不相同,对相关反馈算法的作用也不一样。针对以上问题,本文重新讨论和修改了Rocchio相关反馈模型,并将其应用于概率检索模型中,提出了一个新的相关反馈机制,即质量偏重反馈模型。(3)研究了通过对高质量网络资源的挖掘来加强相关反馈算法的性能。针对伪相关反馈文档集质量难以得到保证这一问题,本文尝试了使用外部资源(相对于检索文档集)来解决该问题,并提出不同算法利用外部资源。具体,本文提出了一种生成式模型,从社会化标注标签(social annotation tags)中选取高质量的扩展词进行查询扩展,以弥补首次检索中获取的反馈文档质量较低的问题。(4)研究了在相关反馈扩展词选择的过程中,如何考虑不同上下文信息对候选扩展词权重的影响。传统相关反馈模型中,候选扩展词的选择通常是基于其在反馈文档集中的统计信息得到,查询的上下文信息在传统相关反馈模型中通常被忽略。因此,相关反馈过程中可能选用偏离查询主题的扩展词,这就导致检索性能下降。本文中,提出了基于贝叶斯网络的相关反馈方法,该模型可以考虑多种不同的上下文信息。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 课题背景
  • 1.2 相关反馈研究现状
  • 1.3 课题动机及方法
  • 1.4 主要工作及组织结构
  • 2 信息检索概述
  • 2.1 Ad hoc信息检索及评价方法
  • 2.1.1 准确率和召回率
  • 2.1.2 宏平均准确率
  • 2.1.3 信息检索评测
  • 2.2 布尔检索模型
  • 2.3 向量空间模型
  • 2.4 概率模型
  • 2.5 语言模型
  • 2.5.1 语言模型的平滑
  • 2.5.2 KL语言模型
  • 2.6 基于查询扩展的相关反馈
  • 2.6.1 向量空间模型中相关反馈
  • 2.6.2 概率模型中的相关反馈
  • 2.6.3 语言模型中的相关反馈
  • 2.7 本章小结
  • 3 基于主题的相关反馈方法
  • 3.1 引言
  • 3.2 相关研究概况
  • 3.3 基于主题的反馈模型
  • 3.3.1 LDA模型
  • 3.3.2 LDA模型的平滑
  • 3.3.3 主题推导策略
  • 3.3.4 一种基于主题的反馈模型
  • 3.4 实验设置
  • 3.4.1 实验对比模型
  • 3.4.2 参数训练
  • 3.4.3 测试数据集和评估
  • 3.5 实验结果及分析
  • 3.5.1 反馈模型性能
  • 3.5.2 反馈模型鲁棒性评测
  • 3.5.3 参数K对检索性能的影响
  • 3.5.4 模拟相关反馈实验
  • 3.6 本章小结
  • 4 基于文档质量偏重的反馈模型
  • 4.1 引言
  • 4.2 相关研究工作
  • 4.2.1 Rocchio相关反馈模型
  • 4.2.2 DFR概率检索机制
  • 4.3 Rocchio模型在DFR中的应用
  • 4.4 基本文档质量偏重模型
  • 4.5 基于回归的质量偏重模型
  • 4.5.1 SVM回归模型
  • 4.5.2 特征选择
  • 4.6 实验结果及分析
  • 4.6.1 实验语料
  • 4.6.2 对比模型和参数训练
  • 4.6.3 基本检索模型性能对比
  • 4.6.4 反馈模型的比较
  • 4.6.5 参数β对检索性能的影响
  • 4.7 本章小结
  • 5 社会化标注在相关反馈中的应用
  • 5.1 引言
  • 5.2 基于社会化标签的相关研究工作
  • 5.3 社会化标注
  • 5.3.1 社会化标注数据集
  • 5.3.2 社会化标注数据集评测
  • 5.4 本文提出反馈模型
  • 5.4.1 语言建模框架下的反馈
  • 5.4.2 生成式反馈模型
  • 5.5 实验设置
  • 5.5.1 测试数据集
  • 5.5.2 对比模型
  • 5.6 实验
  • 5.6.1 相关反馈模型评测
  • 5.6.2 组合资源的评测
  • 5.7 本章小结
  • 6 基于贝叶斯网络的上下文相关反馈模型
  • 6.1 引言
  • 6.2 基于贝叶斯网络的上下文相关反馈模型
  • 6.3 几何距离上下文
  • 6.4 外部上下文
  • 6.4.1 社会化标注数据集
  • 6.4.2 社会化上下文概率估计
  • 6.5 实验
  • 6.5.1 设置
  • 6.5.2 参数训练
  • 6.6 结论与分析
  • 6.7 结论与展望
  • 7. 总结与展望
  • 7.1 本文工作总结
  • 7.2 展望
  • 本文主要创新点
  • 附录A TREC数据集中查询示例
  • 附录B TREC数据集中文档示例
  • 攻读博士学位期间发表学术论文情况
  • 参考文献
  • 致谢
  • 作者简介
  • 相关论文文献

    • [1].机器学习技术在现代农业气象中的应用[J]. 应用气象学报 2020(03)
    • [2].澳大利亚科研人员研究利用机器学习技术解决太空垃圾问题[J]. 传感器世界 2020(03)
    • [3].机器学习技术发展的综述与展望[J]. 集成电路应用 2020(10)
    • [4].现代企业利用机器学习技术的方法探索[J]. 计算机产品与流通 2017(12)
    • [5].机器学习技术的发展趋势探析[J]. 计算机产品与流通 2018(09)
    • [6].机器学习技术在公共交通信息平台中的应用与研究[J]. 信息与电脑(理论版) 2016(20)
    • [7].浅析机器学习技术在油气行业的应用场景[J]. 信息系统工程 2017(05)
    • [8].2020全球机器学习技术大会[J]. 中国会展(中国会议) 2020(22)
    • [9].机器学习技术或引发“科学危机”[J]. 中小学数学(小学版) 2019(Z2)
    • [10].社会网络分析中的机器学习技术综述[J]. 南京邮电大学学报(自然科学版) 2011(03)
    • [11].试论人工智能与机器学习技术在智慧城市中的应用[J]. 信息系统工程 2020(01)
    • [12].工商银行自动化机器学习技术探索与实践[J]. 人工智能 2020(03)
    • [13].机器学习技术在气动优化中的应用[J]. 航空学报 2019(01)
    • [14].基于大数据的机器学习技术对文本分类的研究[J]. 信息通信 2020(06)
    • [15].运用机器学习技术提高沙盒安全检测效率[J]. 电脑编程技巧与维护 2019(05)
    • [16].机器学习技术应用于乙烯裂解炉运行状况的分析与模拟[J]. 计算机与应用化学 2017(12)
    • [17].基于机器学习技术的在线疾病诊疗方案倾向性识别研究[J]. 中华医学图书情报杂志 2018(07)
    • [18].浅议机器学习技术在政府网站中的应用[J]. 现代经济信息 2017(21)
    • [19].机器学习技术的应用经验及建议[J]. 金融电子化 2019(01)
    • [20].经济学研究中的机器学习:回顾与展望[J]. 数量经济技术经济研究 2020(04)
    • [21].新手数据科学家常犯的13个错误[J]. 数据分析与知识发现 2018(08)
    • [22].运用机器学习技术处理视野测试数据[J]. 电脑编程技巧与维护 2020(01)
    • [23].机器学习技术在数据挖掘中的商业应用[J]. 电子技术与软件工程 2018(20)
    • [24].人体运动合成中的机器学习技术综述[J]. 计算机辅助设计与图形学学报 2010(09)
    • [25].机器学习技术在疗养数据挖掘中的应用初探[J]. 中国医疗设备 2018(04)
    • [26].机器学习技术在现代农业中的应用[J]. 电子技术与软件工程 2018(18)
    • [27].基于机器学习的学生就业技能分析[J]. 电脑知识与技术 2019(34)
    • [28].CE人语[J]. 消费电子 2017(07)
    • [29].基于机器学习技术的网络安全防护[J]. 网络空间安全 2018(09)
    • [30].可降低AI应用门槛的自动机器学习技术[J]. 人工智能 2018(05)

    标签:;  ;  ;  ;  ;  

    基于网络挖掘与机器学习技术的相关反馈研究
    下载Doc文档

    猜你喜欢