Web挖掘中的降维和分类方法研究

Web挖掘中的降维和分类方法研究

论文题目: Web挖掘中的降维和分类方法研究

论文类型: 博士论文

论文专业: 计算机应用技术

作者: 孙建涛

导师: 石纯一,陆玉昌

关键词: 挖掘,网页分类,降维,万维网,点击日志挖掘

文献来源: 清华大学

发表年度: 2005

论文摘要: Web挖掘研究把数据挖掘方法和万维网(WWW)相结合,目的是从WWW的海量数据中挖掘有用的知识,研制高效的Web挖掘系统。本论文结合网页分类、网页摘要和个性化Web搜索等挖掘任务,以Web挖掘中的降维和分类方法研究为重点,提出和改进Web挖掘算法。主要工作包括以下方面: 第一,提出一种有监督的潜在语义索引(SLSI)模型降维方法,用于文本分类任务中的特征表示。同传统的潜在语义索引(LSI)模型相比,SLSI既能够捕捉文档集合中的潜在概念,同时能够利用不同类别之间的区分信息。SLSI可以取得好的降维效果,同时也能保证文本分类的精度。 第二,提出一种三阶数据降维模型CubeSVD,用于分析搜索引擎服务器端收集的点击日志数据。点击日志数据通常很稀疏,并且包含多种类型对象,对象之间存在复杂的关系。CubeSVD基于高阶奇异值分解技术,通过降维发现对象间的潜在关系,帮助提高个性化Web搜索的性能。 第三,研究基于降维技术的网页摘要方法,提出一种利用点击日志的改进型网页摘要算法ALSA,从点击日志数据中挖掘Web用户使用查询词搜索网页的知识;另外,结合点击日志数据和Web上人工标注的网页类别信息,提出一种构造主题词典(Thematic Lexicon)方法帮助网页摘要。 第四,提出一种通过优化组合核函数进行网页分类的方法GECKO。网页分类的一个难点是网页具有异构特征。本文使用组合核函数方法综合利用异构特征,通过求解广义特征值问题优化核函数的组合,基于优化的核矩阵训练SVM分类器。试验结果显示该算法能够取得好的泛化性能。 第五,研究基于隐链接关系的网页分类算法。用户使用搜索引擎时,输入查询词后通常会点击一些主题相关的网页,因此基于点击日志数据可以构建网页间的隐链接关系。本文提出构建隐链接的方法和基于隐链接构造网页虚拟文档表示的方法,并且基于两类网页分类算法比较文中定义的两种隐链接和三种超链接关系。试验结果显示基于隐链接关系可以改进网页分类的精度。 作者参加了数据挖掘组承担的国家973项目,将本文研究成果用于该项目的Web挖掘原型系统WebME(Web Mining Environment)中,系统的良好性能验证了本文所提出方法的有效性。

论文目录:

第1章 概述

1.1 研究的目的、意义及研究背景

1.2 Web挖掘研究的内容

1.2.1 Web内容挖掘

1.2.2 Web结构挖掘

1.2.3 Web使用挖掘

1.3 Web挖掘研究的关键技术

1.3.1 网页分类

1.3.1.1 文本分类算法

1.3.1.2 文本分类的评价

1.3.1.3 网页分类研究存在的问题

1.3.2 网页摘要

1.3.2.1 传统摘要算法

1.3.2.2 网页摘要的评价

1.3.3 Web搜索

1.3.4 Web挖掘中的降维方法研究

1.3.4.1 特征选择

1.3.4.2 奇异值分解(SVD)

1.4 Web挖掘的难点

1.4.1 需要多种Web挖掘技术的结合

1.4.2 复杂数据对Web挖掘研究提出挑战

1.4.3 使用Web数据中的用户知识提高挖掘性能

1.5 本文的研究重点、主要贡献和论文的组织

1.5.1 本文的研究内容

1.5.2 论文各部分的主要内容

第2章 有监督的潜在语义索引(SLSI)模型

2.1 引言

2.2 相关研究工作

2.3 SLSI模型

2.3.1 SLSI算法描述

2.3.2 基向量的选择

2.3.3 SLSI和LSI的区别

2.4 试验和分析

2.5 本章小结和下一步研究工作讨论

第3章 CubeSVD模型及其在个性化Web搜索中的应用

3.1 引言

3.2 个性化搜索和点击日志挖掘

3.3 张量和高阶奇异值分解

3.4 基于CubeSVD的Web搜索

3.4.1 CubeSVD算法

3.4.2 CubeSVD的一个例子

3.4.3 中心张量的维数选择

3.4.4 加权策略

3.4.5 平滑方法

3.4.5.1 基于常数的平滑

3.4.5.2 基于内容相似性的平滑

3.4.6 归一化方法

3.5 试验和分析

3.5.1 数据集

3.5.2 基准算法

3.5.3 评价方法

3.5.4 试验结果

3.5.4.1 中心张量维数对算法性能的影响

3.5.4.2 加权策略、平滑方法和归一化方法的影响

3.5.4.3 跟其它方法的比较

3.5.4.4 试验结论

3.6 本章小结和下一步研究工作讨论

第4章 基于点击日志的改进型网页摘要算法

4.1 引言

4.2 相关研究工作

4.3 使用点击日志提高摘要性能

4.3.1 点击日志用于网页摘要的可行性研究

4.3.2 改进型网页摘要算法:ALSA

4.3.3 提高没有查询日志网页的摘要结果

4.4 试验和分析

4.4.1 数据集

4.4.1.1 人工标注的网页集

4.4.1.2 大规模测试集

4.4.2 评价方法

4.4.3 试验结果和讨论

4.4.3.1 有点击日志网页的摘要结果

4.4.3.2 没有点击日志网页的摘要结果

4.4.3.3 大规模测试集的摘要结果

4.4.3.4 讨论

4.5 本章小结和下一步研究工作讨论

第5章 基于组合核函数的网页分类算法

5.1 引言

5.2 相关研究工作

5.3 核方法

5.3.1 核方法和核组合

5.3.2 核匹配

5.4 基于优化组合核函数的网页分类算法

5.4.1 优化组合核匹配

5.4.2 GE-CKO算法

5.5 试验和分析

5.5.1 数据集

5.5.2 评价方法

5.5.3 试验结果和讨论

5.5.3.1 基准算法

5.5.3.2 GE-CKO算法的泛化性能

5.5.3.3 多个核组合情况下GE-CKO算法的性能

5.5.4 讨论

5.6 本章小结和下一步研究工作讨论

第6章 基于隐链接的网页分类算法

6.1 引言

6.2 相关研究工作

6.3 隐链接和超链接

6.3.1 隐链接和超链接的定义

6.3.2 隐链接和超链接的区别

6.4 基于隐链接的分类算法

6.4.1 基于链接邻居的分类(CLN)

6.4.2 基于虚拟文档表示的分类(VDBC)

6.5 试验和分析

6.5.1 试验数据

6.5.2 分类算法和评价方法

6.5.3 链接关系的统计

6.5.4 CLN算法分类结果

6.5.5 VDBC算法分类结果

6.5.5.1 不同虚拟文档表示方法的影响

6.5.5.2 组合网页局部文本的虚拟文档表示

6.5.5.3 点击日志数量对分类性能的影响

6.6 本章小结和下一步研究工作讨论

第7章 Web挖掘原型系统

7.1 系统框架

7.2 WebME系统的特点

7.3 系统主要模块

7.4 WebME系统用于宏观经济领域的例子

7.5 本章小节和下一步研究工作讨论

结论

参考文献

致谢及声明

个人简历、在学期间发表的学术论文与研究成果

发布时间: 2006-06-29

参考文献

  • [1].面向网站无障碍评估的网页抽样方法研究[D]. 张梦妮.浙江大学2018
  • [2].中文网页定题采集及分类研究[D]. 宗校军.华中科技大学2006
  • [3].基于关系子群发现算法的聚焦爬行技术[D]. 徐晴阳.吉林大学2008

相关论文

  • [1].WEB数据挖掘研究[D]. 王勇.西北工业大学2006

标签:;  ;  ;  ;  ;  

Web挖掘中的降维和分类方法研究
下载Doc文档

猜你喜欢