面向web文本挖掘的主题搜索技术研究

面向web文本挖掘的主题搜索技术研究

论文摘要

随着因特网的快速发展,海量的Web数据资源已经成为人们获取知识与信息的重要来源。由于Web资源具有半结构性、离散性、实时性和异构性等特点,用户很难快速准确地从Web上获取真正有价值的信息。获取Web信息的主要方法是使用搜索引擎,而现在流行的通用搜索引擎不能很好的提供信息结构抽取、Web文本内容的分类、过滤以及文档理解方面的功能。因此,如何设计搜索引擎技术,使之更适应的对Web资源进行高效的挖掘就成为了研究热点。本论文的研究内容是面向Web文本挖掘的主题搜索引擎研究与系统设计。重点讨论了当前流行的Web挖掘以及搜索引擎的核心技术,并且设计和实现主题Web信息挖掘和搜索原型系统Label3。本文的主要工作研究如下:主题爬虫技术:改进了以往的爬虫策略,提出了基于非贪婪遗传算法的网络爬虫搜索策略,对各个算法进行数据分析和性能比较。语言过滤分词、中文字词切分算法:考虑到拉丁语言与中文语言的差异,本文讨论了各自的语言分词算法,特别针对中文语言的特殊性,提出了基于字典的“词元”分词算法。Web数据的挖掘算法:主要是对采集到的Web数据,进行数据聚类分类,发现数据的内在联系,并且提取文本的类别信息,为用户提供更好的信息服务。数据索引和检索机制:数据索引机制采用独特的倒排序策略来建立数据索引,对获取的文本信息进行细化。信息查询检索服务针对不同类别网页分类查询,使用户的得到的搜索结果更加精确。针对以上研究成果,本文描述了原型系统的设计实现细节。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题背景
  • 1.2 研究现状
  • 1.3 课题的研究内容
  • 1.4 论文的组织结构
  • 第二章 Web数据挖掘技术
  • 2.1 数据挖掘综述
  • 2.1.1 定义
  • 2.1.2 特征
  • 2.1.3 方法
  • 2.1.4 处理过程
  • 2.2 Web数据挖掘
  • 2.2.1 介绍
  • 2.2.2 优点
  • 2.2.3 类别
  • 2.2.4 基本步骤
  • 2.2.5 几种Web数据挖掘方式的对比
  • 2.3 Web文本挖掘
  • 2.4 小结
  • 第三章 搜索引擎技术
  • 3.1 搜索引擎概况
  • 3.1.1 概念
  • 3.1.2 搜索引擎的分类
  • 3.2 搜索引擎的关键技术
  • 3.2.1 信息的收集和存储技术
  • 3.2.2 信息的预处理技术
  • 3.2.3 信息索引技术
  • 3.2.4 搜索引擎的性能指标
  • 3.3 搜索引擎的基本模块构成
  • 3.4 网络爬虫技术
  • 3.4.1 概括
  • 3.4.2 性能
  • 3.4.3 基本原理
  • 3.4.4 实现方式
  • 3.5 小结
  • 第四章 系统中的理论和算法
  • 4.1 页面主题相似度算法
  • 4.1.1 TF-IDF权值
  • 4.1.2 相似度计算
  • 4.2 链接获取策略
  • 4.2.1 HTML结构树
  • 4.2.2 关联上下文
  • 4.2.3 建立样本库
  • 4.2.4 性能评价
  • 4.3 面向主题爬行的非贪婪遗传算法
  • 4.3.1 遗传算法
  • 4.3.2 链接选择的非贪婪策略
  • 4.3.3 基于非贪婪遗传算法的主题网络爬虫搜索算法
  • 4.3.4 性能评价
  • 4.4 中文分词技术
  • 4.4.1 机械分词方法
  • 4.4.2 基于理解的分词方法
  • 4.4.3 统计分词方法
  • 4.5 基于支持向量机的文本分类方法
  • 4.5.1 支持向量机与核函数
  • 4.5.2 基于SVM的Web文本分类算法
  • 4.6 小结
  • 第五章 系统的设计与实现
  • 5.1 面向Web文本挖掘的主题搜索系统
  • 5.1.1 系统设计的目标
  • 5.1.2 Label Studio3 的模块图
  • 5.2 多线程网络爬虫
  • 5.2.1 网络爬虫的框架
  • 5.2.2 Web页面的下载
  • 5.2.3 网页解析
  • 5.2.4 数据存储
  • 5.2.5 协调控制
  • 5.2.6 运行实现
  • 5.3 文本内容挖掘
  • 5.3.1 文本内容挖掘的框架
  • 5.3.2 语言分词
  • 5.3.3 特征抽取
  • 5.3.4 内容分类
  • 5.3.5 运行实现
  • 5.4 索引和检索
  • 5.4.1 索引检索模块的框架
  • 5.4.2 倒排序索引原理
  • 5.4.3 建立索引
  • 5.4.4 检索功能
  • 5.4.5 运行实现
  • 5.5 小结
  • 第六章 总结与展望
  • 6.1 研究工作的总结
  • 6.2 趋势与展望
  • 致谢
  • 参考文献
  • 在读期间发表的学术论文
  • 相关论文文献

    • [1].基于文本挖掘的电商评论情感分析[J]. 产业与科技论坛 2020(02)
    • [2].智能时代的教育文本挖掘模型与应用[J]. 现代远程教育研究 2020(05)
    • [3].文本挖掘领域研究现状与趋势分析[J]. 武汉船舶职业技术学院学报 2018(02)
    • [4].文本挖掘在药物靶位研究中的应用[J]. 中华医学图书情报杂志 2017(03)
    • [5].文本挖掘重点技术研究[J]. 漯河职业技术学院学报 2015(05)
    • [6].让标点符号教学“厚实”起来[J]. 福建基础教育研究 2016(12)
    • [7].基于文本挖掘的商学院数字创新课程研究[J]. 当代教研论丛 2017(04)
    • [8].文本特征提取研究现状分析与展望[J]. 科技创新与品牌 2017(04)
    • [9].基于文本挖掘的不同层次大学生英语作文的词汇和主题特征分析[J]. 英语研究 2017(01)
    • [10].基于文本挖掘的电子商务市场表现研究[J]. 科学中国人 2017(12)
    • [11].文本图表示模型及其在文本挖掘中的应用[J]. 情报学报 2013(12)
    • [12].基于文本挖掘的社会资本与大学生就业质量的关联性研究[J]. 社会保障研究 2018(04)
    • [13].基于疾病数据库的文本挖掘工具对比研究[J]. 中华医学图书情报杂志 2018(06)
    • [14].基于文本挖掘的5G技术研究热点分析[J]. 科技管理研究 2020(19)
    • [15].基于云计算的海量文本挖掘关键技术研究[J]. 信息与电脑(理论版) 2014(16)
    • [16].基于文本挖掘的国外移动图书馆研究热点分析[J]. 内蒙古科技与经济 2018(19)
    • [17].基于聚类分析的国内文本挖掘热点与趋势研究[J]. 情报学报 2019(06)
    • [18].谈小学语文教学“文本挖掘”的几个层面——从人教版小学语文第十册《草原》说起[J]. 中国农村教育 2019(24)
    • [19].基于文本挖掘的论坛热点问题时变分析[J]. 软件 2017(04)
    • [20].文本挖掘口角升温[J]. 世界科学 2013(05)
    • [21].基于文本挖掘法的北京市家庭医生评价体系构建及实证研究[J]. 中国全科医学 2020(25)
    • [22].基于文本挖掘和复杂网络的中美电商专利比较研究[J]. 情报杂志 2019(06)
    • [23].大数据环境下的文本挖掘教学内容探讨[J]. 无线互联科技 2018(09)
    • [24].主题模型在临床文本挖掘中的应用现状[J]. 医学信息学杂志 2018(05)
    • [25].自动术语识别——对科技文献进行文本挖掘的重要技术方法[J]. 现代图书情报技术 2008(08)
    • [26].语义文本挖掘算法优化研究[J]. 山东工业技术 2018(07)
    • [27].基于文本挖掘的形态分析方法的关键问题[J]. 图书情报工作 2012(04)
    • [28].基于专利文本挖掘的科技文化产业技术发展趋势研究[J]. 科技进步与对策 2019(23)
    • [29].中文文本挖掘的流程与工具分析[J]. 科技创新导报 2019(19)
    • [30].在线评论文本挖掘对电商的影响研究[J]. 中国商论 2018(33)

    标签:;  ;  ;  ;  

    面向web文本挖掘的主题搜索技术研究
    下载Doc文档

    猜你喜欢