基于Web日志挖掘的智能信息检索研究

基于Web日志挖掘的智能信息检索研究

论文摘要

互联网时代的来临,使得网络用户日志数据急剧增加,如何快速有效地获取、管理和使用这些日志数据,己经成为信息系统学科迫切需要解决的重要问题。作为解决这些问题的基本工具之一,近十几年来Web数据挖掘技术研究得到了广泛关注,获得了长足发展。基于Web日志挖掘的智能信息检索旨在通过对Web信息检索的日志数据进行有效的分析,挖掘隐藏在日志数据背后的用户检索知识和模式,应用这些知识和模式对现有的检索方法进行改进,达到智能化信息检索的目的。这个目标基于这样的假设:网络查询日志中确实蕴含了用户访问Web的某些规律性特性,这些特性反映在某些模式中,这些模式可以被挖掘出来并加以利用。本论文的研究以Sogou搜索引擎的用户查询日志为基础,使用统计分析、文本挖掘、关联分析、聚类和统计语言建模等挖掘技术,获得蕴含在用户日志中的有价值的知识,并针对所得到的知识在信息检索的查询扩展、检索推荐和用户聚类等关键技术领域的实践应用作了深入的研究。实验证明,Web日志挖掘技术能够有效改善信息检索模型的性能。本文研究的主要内容包括以下四个部分:首先,对用户查询日志中的检索规律展开研究。用户查询日志是记录网络搜索引擎用户行为的重要载体,通过对日志文件的统计分析,以及挖掘发现这些信息间的相互关系,可以归纳和总结出用户检索的一般规律和特征。为了更好的理解用户的检索行为,本文对实际网络日志进行了实证性的规模统计分析,并且从查询词、网页点击、用户会话等角度方面对用户行为进行了详细的分析,分析结果对于改进搜索引擎的检索算法和获得更准确的检索效果都有很好的指导意义。其次,对基于关联分析的自适应查询扩展进行研究。查询扩展可以有效的消除查询歧义,提高信息检索的准确率和召回率。本文通过挖掘用户日志中查询词和相关文档的连接关系,构造关联查询,并提出了一种从关联查询中提取查询扩展词的查询扩展方法。同时,提出了一种查询歧义判别方法,该方法可以对查询词所表达的检索意图的模糊程度进行有效度量,也可以对查询词的检索性能进行预先估计,本文使用查询歧义判别来动态调整扩展词的长度,提高了查询扩展模型的灵活性和适应能力。再次,对基于特征融合的检索推荐展开研究。基于查询日志挖掘的检索推荐系统可以有效地预测用户在信息检索过程中可能点击的检索结果,从而达到智能推荐的目的。针对目前已有的推荐系统缺乏有效的语义处理的问题,本文利用词语语义信息和统计语言模型相结合,提出了一种基于文档相关度计算的检索推荐模型。通过词频信息和知网(HowNet)中词的概念计算模型计算网页文档间的主题相关度,再将该语义信息与统计模型计算的条件概率值相融合,以此作为网页推荐的依据,同时为了提高推荐模型的适用度,使用回退平滑和关联查询方法对模型进行了修正。实验表明,这项技术使推荐系统的性能获得了较大的提高。最后,对面向检索兴趣的用户聚类进行了研究。用户聚类是针对查询日志中的用户会话进行分析,根据用户的访问动作,寻找行为模式或检索兴趣相似的用户,将其分为一组。针对目前基于用户会话计算用户相似度的不足,本文提出了一种通过挖掘查询关联关系对用户会话相似度计算特征进行补偿的方法,并给出了一种改进的关系传播聚类算法对用户数据进行聚类,该算法可以自适应地动态调整聚类参数,检测和消除聚类振荡,扫描参数空间来获得最佳的聚类效果。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题的背景和意义
  • 1.2 Web日志挖掘国内外研究现状
  • 1.2.1 数据挖掘
  • 1.2.2 Web日志挖掘
  • 1.2.3 Web日志挖掘对智能信息检索的支持
  • 1.3 本文的主要研究内容
  • 1.4 本文的内容安排
  • 第2章 用户日志的预处理与分析
  • 2.1 引言
  • 2.2 用户日志预处理
  • 2.3 用户日志统计分析
  • 2.3.1 基于查询词的分析
  • 2.3.2 基于点击网页的分析
  • 2.3.3 基于用户会话的分析
  • 2.4 本章小结
  • 第3章 基于关联分析的自适应查询扩展
  • 3.1 引言
  • 3.2 查询扩展技术相关研究
  • 3.3 基于关联分析的自适应查询扩展
  • 3.3.1 查询歧义度计算
  • 3.3.2 查询关联分析
  • 3.3.3 自适应的查询扩展方法
  • 3.4 实验与分析
  • 3.4.1 查询词歧义度计算实验与结果分析
  • 3.4.2 自适应查询扩展实验结果及分析
  • 3.5 本章小结
  • 第4章 基于特征融合的检索推荐模型
  • 4.1 引言
  • 4.2 检索推荐相关研究
  • 4.2.1 文本相关度分析
  • 4.2.2 用户行为分析
  • 4.3 基于特征融合的检索推荐模型
  • 4.3.1 基于概念向量的文档相关度计算
  • 4.3.2 基于特征融合的检索推荐模型
  • 4.3.3 实验与分析
  • 4.4 本章小结
  • 第5章 面向检索兴趣的用户聚类
  • 5.1 引言
  • 5.2 用户聚类分析
  • 5.2.1 用户相似度计算
  • 5.2.2 聚类方法分析
  • 5.2.3 关系传播聚类
  • 5.3 基于用户会话的用户相似度计算
  • 5.4 面向检索兴趣的用户聚类
  • 5.4.1 自适应的用户聚类算法
  • 5.4.2 实验与分析
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 攻读博士学位期间发表的论文
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].基于WEB的通信电源远程监控系统研究[J]. 中国设备工程 2019(24)
    • [2].基于自适应遗传算法的考虑服务质量感知Web服务发现[J]. 电子测量技术 2019(22)
    • [3].面向Web系统热点数据预测及缓存管理的研究[J]. 信息技术与信息化 2019(12)
    • [4].基于页面对象的Web应用测试用例生成方法[J]. 计算机应用 2020(01)
    • [5].运用物联网和Web服务搭建院际转运信息平台[J]. 电子技术与软件工程 2020(02)
    • [6].延迟加载在web开发中的应用心得[J]. 视听 2020(02)
    • [7].基于Web的期刊采编系统的设计与实现[J]. 电脑知识与技术 2020(06)
    • [8].Web服务软件测试技术的研究与实现[J]. 电脑知识与技术 2020(02)
    • [9].移动互联网时代的Web性能优化实践[J]. 信息通信 2020(01)
    • [10].基于Web的校园个人自行车租赁系统[J]. 卫星电视与宽带多媒体 2020(02)
    • [11].基于网站制作的Web前端开发技术与优化[J]. 数字技术与应用 2020(01)
    • [12].基于Web应用的网络安全漏洞发现与研究[J]. 无线互联科技 2020(05)
    • [13].基于Web的动态几何软件领域模型及其应用[J]. 计算机应用 2020(04)
    • [14].基于web技术支持下网络多媒体课件的制作原则及优点[J]. 科技风 2020(13)
    • [15].基于Web的网上教学平台的设计与实现[J]. 科技与创新 2020(07)
    • [16].1+X证书制度与Web前端开发专业融合的探索[J]. 信息与电脑(理论版) 2020(04)
    • [17].基于《web前端页面设计》在线开放课程自主学习探讨[J]. 计算机产品与流通 2020(05)
    • [18].基于WEB的计算机课程辅助教学系统的设计与实现[J]. 计算机产品与流通 2020(05)
    • [19].基于Web的时变体数据的体绘制方法[J]. 计算机测量与控制 2020(04)
    • [20].Web浏览器中数据安全配置的研究[J]. 电脑编程技巧与维护 2020(04)
    • [21].基于实践应用的Web开发技术教学改革研究初探[J]. 科学大众(科学教育) 2020(05)
    • [22].基于Web的桥梁健康监测系统设计与实现[J]. 计算机技术与发展 2020(04)
    • [23].基于Web技术的计算机实验室综合管理系统设计[J]. 电子制作 2020(11)
    • [24].分析校园网中Web服务器的配置及安全防护[J]. 江西电力职业技术学院学报 2020(01)
    • [25].基于Web的研究生学位信息管理系统技术研究[J]. 创新创业理论研究与实践 2020(07)
    • [26].WEB技术在地质资料二次开发中的应用探讨[J]. 中国非金属矿工业导刊 2020(03)
    • [27].基于Web技术的医疗图像脱敏系统的设计与实现[J]. 宁夏工程技术 2020(02)
    • [28].网站制作的Web前端开发设计的相关研究[J]. 卫星电视与宽带多媒体 2020(07)
    • [29].Web开发提高网站性能的技巧[J]. 电脑编程技巧与维护 2020(06)
    • [30].随钻测井地质导向服务WEB版[J]. 国外测井技术 2020(03)

    标签:;  ;  ;  ;  ;  

    基于Web日志挖掘的智能信息检索研究
    下载Doc文档

    猜你喜欢