面向智能信息检索的Web挖掘关键技术研究

论文摘要

WWW自从1991年问世以来得到了非常迅速的发展，为人们获取各种信息提供了方便。随着Internet技术的不断发展和完善，WWW将会逐步成为人们获取信息的一个重要渠道。如果说，在信息量相对较少的时候，Internet为人们获取信息提供了方便的话，随着Internet上信息量的急剧增加，人们却感觉到查找所需要的信息越来越困难了，其原因就在于传统的信息检索方式已越来越不适应网上的海量信息，人们希望有更加智能化的信息检索方式出现，以应对海量信息的检索。本文对面向智能信息检索的Web挖掘的若干关键技术进行研究，重点研究了数据预处理、Web页面分类/聚类及Web用户分类/聚类、概念检索、个性化服务等问题，提出或改进了一些应用于智能信息检索的Web挖掘算法，应用研究成果实现了一个小型智能化信息检索的系统原型。数据预处理包括基于PDF文件的信息抽取、中文文本分词和Web日志预处理。对于PDF文件信息抽取，提出了基于格式注入的规则抽取和基于树模型的信息抽取算法，在人工标注指导下学习信息抽取规则，取得了较高的信息抽取准确率。对于中文文本分词，提出了基于固定词典和统计相结合的渐进式丰富词典的中文文本分词方法，较好地解决了新词识别问题，相对于单纯的词典方法或统计方法，具有更好的分词效果。Web日志预处理包括数据清洗、用户识别、会话识别和路径补充等工作，在分析已有工作的基础上，重点讨论了路径补充问题并提出了新的路径补充算法，使Web日志预处理工作更加完善。在中文页面分类研究中，讨论了用于文本分类的各种方法，重点讨论了对文本分类具有较高分类准确率的k-近邻方法。针对k-近邻方法分类效率不高的问题，提出了基于密度的训练样本集约减、渐进式分类等算法。通过计算训练样本集中各类别的类别密度及整个训练集的平均密度，去掉高密度类别中的部分样本；渐进式分类模式模拟人工分类文本的智能化形式，分为按标题分类、按关键段落分类和按全文分类三个层次，尽量减少分析全文的比例。实验表明，这两个方面的改进，不仅提高了k-近邻方法的分类效率，而且对其分类准确率也有一定程度的提高，这说明训练样本集的约减使其具有更好的代表性，渐进式文本分

论文目录

声明

摘要

Abstract

第一章前言

1.1 问题提出

1.2 智能信息检索

1.2.1 基于概念的信息检索

1.2.2 个性化服务

1.2.3 信息的合理分类/聚类

1.3 Web挖掘技术及其对智能信息检索的支持

1.3.1 数据挖掘

1.3.2 Web挖掘

1.3.3 分类/聚类对智能信息检索的支持

1.4 本文的组织

第二章相关概念与技术

2.1 分类/聚类概述

2.2 样本类型及相似性度量

2.2.1 样本类型

2.2.2 相似性度量

2.3 聚类分析

2.3.1 聚类分析步骤

2.3.2 几种常用的聚类策略

2.3.3 类的定义

2.4 本体介绍

2.4.1 构造本体的准则

2.4.2 本体方法学

2.4.3 本体的描述语言

2.4.4 本体的分类

2.4.5 本体的应用

第三章支持信息检索的数据预处理技术

3.1 问题提出

3.2 基于PDF文件的信息抽取

3.2.1 信息抽取过程

3.2.2 PDF文件解析

3.2.2.1 PDF文件的物理结构

3.2.2.2 PDF文件的逻辑结构

3.2.2.3 PDF文件解析器

3.2.3 格式标签注入

3.2.4 标签预处理

3.2.5 规则库

3.2.5.1 信息抽取规则与限定词库

3.2.5.2 标签一致性判定规则和冗余标签判定规则

3.2.6 模式匹配

3.2.7 实验分析

3.2.7.1 实验分析一

3.2.7.2 实验分析二

3.3 基于渐进式丰富词典的中文分词方法

3.3.1 中文分词方法

3.3.1.1 基于词典的分词方法

3.3.1.2 基于统计的分词方法

3.3.1.3 基于人工智能的分词方法

3.3.2 渐进式丰富词典

3.3.2.1 基本思路

3.3.2.2 分词算法

3.3.2.3 实验分析

3.4 Web日志预处理

3.4.1 Web数据源

3.4.2 Web日志数据的特点

3.4.2.1 HTTP协议对数据的影响

3.4.2.2 缓存导致的信息丢失

3.4.2.3 其它原因导致的数据不准确性

3.4.3 Web日志数据预处理过程及实现

3.4.3.1 数据清洗

3.4.3.2 用户识别

3.4.3.3 会话识别

3.4.3.4 路径补充

3.5 本章小结

第四章中文页面与Web用户分类技术

4.1 问题提出

4.2 常用分类方法

4.2.1 朴素贝叶斯方法

4.2.2 k-近邻方法

4.2.3 决策树方法

4.2.4 支持向量机方法

4.3 维数约减方法

4.4 改进的基于k近邻的中文文本分类方法

4.4.1 k-近邻方法的分类过程及改进思路

4.4.2 训练样本集的约减

4.4.2.1 基本思路

4.4.2.2 约减算法

4.4.2.3 实验分析

4.4.3 渐进式分类模式

4.4.3.1 基本思想

4.4.3.2 实验分析

4.4.4 基于本体的语义理解

4.4.4.1 基本思路

4.4.4.2 实验分析

4.4.5 基于遗传算法的k值学习

4.4.5.1 基本思路

4.4.5.2 学习k值的遗传算法

4.4.5.3 选择染色体的方法

4.4.5.4 杂交变异并形成新一代染色体

4.4.5.5 实验分析

4.5 基于神经网络的Web用户分类

4.5.1 神经网络概述

4.5.2 神经网络学习规则

4.5.2.1 Hebb型学习

4.5.2.2 误差修正学习

4.5.2.3 竞争型学习

4.5.2.4 随机型学习

4.5.3 前馈型神经网络

4.5.3.1 网络结构

4.5.3.2 数据规格化

4.5.3.3 误差函数

4.5.3.4 实验分析

4.6 本章小结

第五章面向页面和用户聚类的聚类分析技术

5.1 问题提出

5.2 主要聚类方法

5.2.1 划分方法

5.2.2 层次方法

5.2.3 局部方法

5.2.4 模型方法

5.3 对k-means算法的改进

5.3.1 k-means算法的一般过程

5.3.2 k-means改进算法的思想

5.3.3 改进的初始聚类中心选择算法

5.3.4 实验分析

5.4 DBSCAN改进算法

5.4.1 基本概念

5.4.2 DBSCAN算法

5.4.3 对DBSCAN算法的改进思路

5.4.4 MinPts的确定

5.4.5 Eps的确定

5.4.6 实验分析

5.5 本章小结

第六章智能信息检索系统原型

6.1 问题提出

6.2 个性化服务

6.2.1 个性化服务的定义

6.2.2 个性化服务系统的分类

6.2.2.1 基于规则的系统

6.2.2.2 基于内容过滤的系统

6.2.2.3 协作过滤系统

6.3 个性化服务的实现

6.3.1 收集用户访问信息

6.3.2 用户建模

6.3.2.1 手工建模

6.3.2.2 示例建模

6.3.2.3 自动建模

6.3.3 个性化推荐

6.3.3.1 基于规则的推荐技术

6.3.3.2 基于内容过滤的推荐技术

6.3.3.3 基于协作过滤的推荐技术

6.4 基于概念的信息检索

6.5 智能信息检索系统原型的设计与实现

6.5.1 系统结构

6.5.2 数据准备

6.5.3 用户访问信息的收集

6.5.3.1 用户访问信息

6.5.3.2 用户访问信息的收集

6.5.4 建立用户模型

6.5.4.1 综合用户建模方式

6.5.4.2 用户页面兴趣度

6.5.5 个性化推荐

6.5.5.1 基于内容过滤的个性化推荐

6.5.5.2 基于规则的个性化推荐

6.5.5.3 基于协作过滤的个性化推荐

6.5.5.4 专家推荐

6.5.5.5 个性化服务实例

6.5.6 概念检索的实现

6.5.6.1 概念处理

6.5.6.2 概念检索实例

6.6 本章小结

第七章总结与展望

7.1 总结

7.2 进一步工作

参考文献

致谢

攻博期间发表的文章

攻博期间参加和完成的科研项目

作者简介

面向智能信息检索的Web挖掘关键技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢