面向web文本挖掘的主题搜索技术研究

论文摘要

随着因特网的快速发展,海量的Web数据资源已经成为人们获取知识与信息的重要来源。由于Web资源具有半结构性、离散性、实时性和异构性等特点,用户很难快速准确地从Web上获取真正有价值的信息。获取Web信息的主要方法是使用搜索引擎,而现在流行的通用搜索引擎不能很好的提供信息结构抽取、Web文本内容的分类、过滤以及文档理解方面的功能。因此,如何设计搜索引擎技术,使之更适应的对Web资源进行高效的挖掘就成为了研究热点。本论文的研究内容是面向Web文本挖掘的主题搜索引擎研究与系统设计。重点讨论了当前流行的Web挖掘以及搜索引擎的核心技术,并且设计和实现主题Web信息挖掘和搜索原型系统Label3。本文的主要工作研究如下:主题爬虫技术:改进了以往的爬虫策略,提出了基于非贪婪遗传算法的网络爬虫搜索策略,对各个算法进行数据分析和性能比较。语言过滤分词、中文字词切分算法:考虑到拉丁语言与中文语言的差异,本文讨论了各自的语言分词算法,特别针对中文语言的特殊性,提出了基于字典的“词元”分词算法。Web数据的挖掘算法:主要是对采集到的Web数据,进行数据聚类分类,发现数据的内在联系,并且提取文本的类别信息,为用户提供更好的信息服务。数据索引和检索机制:数据索引机制采用独特的倒排序策略来建立数据索引,对获取的文本信息进行细化。信息查询检索服务针对不同类别网页分类查询,使用户的得到的搜索结果更加精确。针对以上研究成果,本文描述了原型系统的设计实现细节。

论文目录

摘要

Abstract

第一章绪论

1.1 课题背景

1.2 研究现状

1.3 课题的研究内容

1.4 论文的组织结构

第二章 Web数据挖掘技术

2.1 数据挖掘综述

2.1.1 定义

2.1.2 特征

2.1.3 方法

2.1.4 处理过程

2.2 Web数据挖掘

2.2.1 介绍

2.2.2 优点

2.2.3 类别

2.2.4 基本步骤

2.2.5 几种Web数据挖掘方式的对比

2.3 Web文本挖掘

2.4 小结

第三章搜索引擎技术

3.1 搜索引擎概况

3.1.1 概念

3.1.2 搜索引擎的分类

3.2 搜索引擎的关键技术

3.2.1 信息的收集和存储技术

3.2.2 信息的预处理技术

3.2.3 信息索引技术

3.2.4 搜索引擎的性能指标

3.3 搜索引擎的基本模块构成

3.4 网络爬虫技术

3.4.1 概括

3.4.2 性能

3.4.3 基本原理

3.4.4 实现方式

3.5 小结

第四章系统中的理论和算法

4.1 页面主题相似度算法

4.1.1 TF-IDF权值

4.1.2 相似度计算

4.2 链接获取策略

4.2.1 HTML结构树

4.2.2 关联上下文

4.2.3 建立样本库

4.2.4 性能评价

4.3 面向主题爬行的非贪婪遗传算法

4.3.1 遗传算法

4.3.2 链接选择的非贪婪策略

4.3.3 基于非贪婪遗传算法的主题网络爬虫搜索算法

4.3.4 性能评价

4.4 中文分词技术

4.4.1 机械分词方法

4.4.2 基于理解的分词方法

4.4.3 统计分词方法

4.5 基于支持向量机的文本分类方法

4.5.1 支持向量机与核函数

4.5.2 基于SVM的Web文本分类算法

4.6 小结

第五章系统的设计与实现

5.1 面向Web文本挖掘的主题搜索系统

5.1.1 系统设计的目标

5.1.2 Label Studio3 的模块图

5.2 多线程网络爬虫

5.2.1 网络爬虫的框架

5.2.2 Web页面的下载

5.2.3 网页解析

5.2.4 数据存储

5.2.5 协调控制

5.2.6 运行实现

5.3 文本内容挖掘

5.3.1 文本内容挖掘的框架

5.3.2 语言分词

5.3.3 特征抽取

5.3.4 内容分类

5.3.5 运行实现

5.4 索引和检索

5.4.1 索引检索模块的框架

5.4.2 倒排序索引原理

5.4.3 建立索引

5.4.4 检索功能

5.4.5 运行实现

5.5 小结

第六章总结与展望

6.1 研究工作的总结

6.2 趋势与展望

致谢

参考文献

在读期间发表的学术论文

面向web文本挖掘的主题搜索技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢