基于Web数据挖掘的面向领域高性能信息检索研究

基于Web数据挖掘的面向领域高性能信息检索研究

论文摘要

随着Internet/Web技术的快速普及和迅猛发展,WWW上的信息量不断增加,如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。由于,因特网信息使用技术的发展往往跟不上因特网信息的增长,搜索引擎可以为人们查找与关键词相关的文档,但返回的结果往往是文档数量太多而命中率不高。传统搜索引擎技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的用户个性化的需求。基于Web挖掘的高性能信息检索就是针对这个问题而提出来的。研究的目标在于充分利用用户的个性化信息,通过用户兴趣制导或丰富查询模式等灵活手段来采集Web信息,充分利用网络信息,从而提高查询的准确度,提高了检索质量,并满足用户的特定查询需求。本文首先对Web挖掘技术和搜索引擎技术进行了分析,同时对其工作原理和数据挖掘中的聚类分析技术进行了较为深入的分析。由于高性能的个性化信息检索的前提是挖掘用户的访问特点并对用户进行分类,用户的访问行为是存放在Web日志中,Web日志数据需要进行预处理,才能用于用户兴趣的挖掘。因此论文深入讨论页面过滤和用户访问路径等问题,使Web日志预处理工作更加完善。本文通过深入研究检索系统如何更快速抓取更多高质量网页,如何进行网页文档索引,如何为用户提供高性能的检索服务后,重点围绕检索效率和检索效果这两个最基本的指标,从索引创建和检索过程详细分析高效检索系统的相关基本实现技术。在此基础上提出根据Web页面网页所在的位置,挖掘出网页在网站中的层次类别信息,通过这些信息进行动态聚类,为用户提供一种动态的目录聚类查询服务;并针对单个用户以往搜索记录进行分析,推测用户的搜索偏好,并对该用户进行查询建模,然后根据用户查询模型产生该类用户的访问模式。最后,本文对作者所做的工作进行了归纳,总结,并讨论了将来进一步的研究方向。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 概述
  • 1.1 引言
  • 1.2 研究背景
  • 1.3 论文主要工作
  • 1.4 论文结构
  • 第二章 理论基础与相关技术
  • 2.1 Web数据挖掘
  • 2.1.1 Web数据挖掘基本概念
  • 2.1.2 Web数据挖掘的原理及实现
  • 2.1.3 Web数据挖掘的数据特点
  • 2.1.4 Web数据挖掘所采用的技术方法
  • 2.1.5 Web数据挖掘的应用与发展趋势
  • 2.2 搜索引擎技术
  • 2.2.1 搜索引擎的概念
  • 2.2.2 搜索引擎的发展历史
  • 2.2.3 Web搜索引擎的工作原理
  • 2.2.4 Web搜索引擎的体系结构
  • 2.3 聚类分析技术
  • 2.3.1 什么是聚类分析
  • 2.3.2 聚类分析中的数据结构
  • 2.3.3 聚类分析中的数据类型
  • 2.3.4 主要聚类方法
  • 第三章 信息检索的数据预处理
  • 3.1 问题的提出
  • 3.2 数据准备
  • 3.3 Web日志数据的特点
  • 3.4 Web日志数据预处理过程及实现
  • 3.4.1 数据清理
  • 3.4.2 页面过滤
  • 3.4.3 用户识别
  • 3.4.4 会话识别
  • 3.4.5 路径识别
  • 第四章 面向领域的高性能个性化信息检索
  • 4.1 检索系统基本技术
  • 4.1.1 系统设计与结构
  • 4.1.2 索引创建
  • 4.1.3 检索过程
  • 4.2 层次结构化挖掘的动态聚类
  • 4.2.1 动态聚类技术
  • 4.2.2 Web页面动态聚类算法
  • 4.3 访问模式挖掘的个性化检索扩展技术
  • 4.3.1 面向领域的个性化检索
  • 4.3.2 基于Web数据挖掘面向领域个性化的关键技术
  • 4.3.3 Web日志中挖掘访问模式
  • 第五章 总结与展望
  • 致谢
  • 主要参考文献
  • 附录A: 攻读学位期间主要成果
  • 相关论文文献

    • [1].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [2].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [3].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [4].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [5].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [6].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [7].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [8].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [9].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [10].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [11].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [12].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [13].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [14].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [15].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [16].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [17].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [18].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [19].浅析数据挖掘[J]. 内江科技 2020(06)
    • [20].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [21].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [22].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [23].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [24].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [25].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [26].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [27].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [28].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [29].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)
    • [30].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(10)

    标签:;  ;  ;  ;  ;  ;  ;  

    基于Web数据挖掘的面向领域高性能信息检索研究
    下载Doc文档

    猜你喜欢