论文题目: Web挖掘中若干问题的研究
论文类型: 博士论文
论文专业: 计算机应用技术
作者: 许建潮
导师: 刘大有
关键词: 遗传算法,信息提取
文献来源: 吉林大学
发表年度: 2005
论文摘要: 提出了一种智能网站体系结构。对其中部分内容进行了详细设计。提出了一种新的基于变长度染色体遗传算法的中文网页文档特征抽取方法。该方法综合文本的频率、位置、词长、视觉效果等特征对关键词动态加权,设计了专门的并列处理算子。实验结果表明约简率和准确度都比较高。扩展了格机理论的等标注概念,提出了交集标注概念与求解算法用于多类别Web 文档的分类。实验表明算法的准确率比较高。证明了基于等价关系结合格机与粗糙集的可行性;提出了一种兼有纵向和横向约简功能的高效约简算法。基于超元组实现了数据属性重要性权值的评价;在可接受的分类精度的前提下,高效约简行和列。实验表明效果很好。提出了一种Web 信息抽取方法,仅需用户简单地标注一页网页,系统就能自动获取抽取知识,算法具有一定的自适应性。
论文目录:
第一章 绪论
1.1 研究背景及意义
1.2 数据挖掘概述
1.2.1 数据挖掘的概念
1.2.2 数据挖掘分类
1.2.3 文本挖掘
1.3 WEB挖掘的研究
1.3.1 Web 内容挖掘
1.3.2 Web 结构挖掘
1.3.3 Web 使用挖掘
1.4 本文工作
第二章 WEB 文档的特征抽取
2.1 引言
2.2 遗传算法概述
2.2.1 GA 中的选择算子
2.2.2 GA 中的变异算子
2.2.3 GA 中的交叉算子
2.2.4 变长染色体遗传算法(messy GA)
2.3 WEB文档的表示
2.4 基于变长染色体遗传算法的特征抽取
2.4.1 参数编码
2.4.2 适应度函数
2.4.3 选择操作
2.4.4 并列处理阶段
2.4.5 变异策略
2.4.6 控制参数的设定
2.5 实验验证
2.6 小结
第三章 WEB 信息分类研究
3.1 分类方法概述
3.2 格机的基础理论
3.3 扩展格机与多类别文档分类
3.4 实验验证
3.5 小结
第四章 数据约简的高效算法研究
4.1 引言
4.2 相关工作
4.2.1 基于密度的格机分类模型
4.2.2 基于格的高效渐增式数据约简
4.3 基于格与属性评价的高效数据约简
4.4 算法分析与实验验证
4.5 小结
第五章 WEB 信息抽取
5.1 引言
5.2 超文本数据的预处理
5.3 表格信息的自主抽取
5.3.1 抽取知识表示方法
5.3.2 抽取知识的获取
5.3.3 信息抽取算法
5.3.4. 学习方法
5.4 列表结构信息的自主抽取
5.5 实验验证与小结
第六章 结束语
6.1 本文主要贡献与创新
6.2 下一步的研究工作
参考文献
作者读博士期间发表的学术论文及其它成果
致谢
摘要
Abstract
发布时间: 2005-08-26