论文题目: 互联网信息采集分析系统的研究及实现
论文类型: 硕士论文
论文专业: 计算机技术
作者: 梁中杰
导师: 邢永康,梁浩云
关键词: 互联网信息采集,文本数据挖掘,支持向量机,特征选取
文献来源: 重庆大学
发表年度: 2005
论文摘要: Internet应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到基于Web的应用。本文简要介绍了互联网信息采集和数据挖掘实现技术,结合公安机关公共信息网络安全监察部门工作需求,研究互联网信息采集分析系统的设计和实现。该系统通过建立网页资源模型、结合Sipder技术、内容分析技术,引入用户数据项和分析定义编辑器,实现可定制、可视化、通用性较强互联网信息采集系统。能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类等从互联网上获取所需信息。支持向量机(Support Vector Machine,简称SVM)是近年来在统计学习理论的基础上发展起来的一种新的模式识别方法,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。本文提出的系统的Web数据挖掘是通过使用SVM-light软件包提供文本自动分类功能实现了互联网信息的自动分类。实验证明,该系统具有较高的分类精度和速度,能有效发现我们“关心”的信息。特征(Feature)用于判别哪些信息是与分类任务相关,特征的数量影响分类器的速度,大量的特征会导致很长的训练和分类时间。特征选取(Feature Selection)就是降低输入维度,是文本自动分类的一个重要的预处理环节。特征选取能减少描述文本文档的特征词的数量,提高分类过程的效率。此外,恰当的特征选取还能提高分类器的精度。文本分类的特征选取是基于一种贪婪过滤的方法,通过统计的方法对每个特征进行评估,计算其特征权重。本文详细分析了文档频率DF、信息增益IG、CHI统计和互信息MI等评估函数的优缺点,发现了在通常环境中表现良好的特征选取方法并不适合于Web中文文本分类问题的事实。分析了产生差异的原因,并提出了适合于Web中文文本环境的特征选取方法。该方法有利于提高分类效果和加速分类过程。本研究和实现的重点内容包括:①提出Web网站的通用四层结构模型,并在系统实现;②分析几类Web网站文本的特点和相应的最佳特征选取方法。③提出人工特征选取法,并通过实验进行分析和证明。
论文目录:
中文摘要
英文摘要
1 绪论
1.1 项目背景及意义
1.2 项目的主要内容
1.3 本人的主要工作
1.4 论文的组织结构
2 涉及的关键技术
2.1 Web 中文文本挖掘
2.1.1 Web 文本数据挖掘的概念
2.1.2 Web 文本挖掘的处理过程
2.1.3 文本挖掘的分类
2.1.4 文本挖掘中的研究课题
2.1.5 文本挖掘的应用领域
2.2 信息获取技术
2.2.1 信息获取定义和分类
2.2.2 信息获取主要研究内容
2.2.3 信息采集系统
2.3 Web 文本自动分类
2.3.1 信息获取技术
2.3.2 文本的表示(文本模型)
2.3.3 特征项的获取
2.3.4 特征项的权重计算
2.3.5 文本特征项的选取
2.3.6 文本自动分类算法
2.3.7 文本自动分类的性能评价
2.4 基于支持向量机的分类算法
2.4.1 支持向量机概述
2.4.2 支持向量机原理
2.4.3 支持向量机在数据挖掘应用
3 系统概述
3.1 系统的目标及需求分析
3.2 系统总体结构
4 信息采集子系统
4.1 传统方式存在问题
4.2 本系统网站数据模型
4.3 几种典型的网站结构模型
4.3.1 留言板
4.3.2 论坛
4.3.3 新闻网站
4.4 功能描述
4.5 模块结构
4.6 采集算法
4.7 设计及实现
4.8 性能测试
5 信息检索子系统
5.1 功能描述
5.2 设计及实现
6 信息分类子系统
6.1 文本分类技术实现信息发现的可行性
6.2 Web 文本自动分类
6.3 SVM-light
6.3.1 参数设置
6.3.2 输入输出文件格式
6.4 功能描述
6.5 设计及实现
6.6 实际应用效果
6.6.1 测试案例
6.6.2 测试结果
7 Web 文本分类特征选择问题探讨
7.1 算法测试
7.2 样本分析
7.3 结果分析和小结
8 总结
致谢
参考文献
附录:作者在攻读硕士学位期间参加的科研项目及得奖情况
独创性声明
学位论文版权使用授权书
发布时间: 2006-12-05
参考文献
- [1].“互联网+课堂”的构建研究[D]. 余胜.湖南师范大学2017
- [2].A公司基于互联网+的会计信息系统研究[D]. 赵扬.哈尔滨商业大学2017
- [3].“互联网+”对公司战略变革的影响分析[D]. 刘向向.河南大学2016
- [4].全通公司互联网教育发展研究[D]. 史家友.云南大学2016
- [5].移动互联网环境下大学生非正式学习现状调查与分析[D]. 李康.江西财经大学2016
- [6].“互联网+”时代我国高等教育发展研究[D]. 邵雪.山东师范大学2016
- [7].移动互联网的信息安全研究[D]. 李佳.首都经济贸易大学2014
- [8].基于互联网的软件感知价值对使用意愿影响的实证研究[D]. 董胜全.南京大学2011
- [9].对保康县在校学生“互联网盲目崇拜现象”的调查研究[D]. 赵莎.华中科技大学2006
- [10].基于互联网思维的S软件公司产品流程优化研究[D]. 张胜仙.中央民族大学2017
相关论文
- [1].信息采集系统的可复用软件设计[D]. 尚军.华中科技大学2006
- [2].基于关联规则的文本数据挖掘研究[D]. 邹庆轩.西南石油大学2006
- [3].主题Web信息采集与分析技术研究[D]. 唐志.重庆大学2006
- [4].基于主题的Web信息采集技术研究[D]. 李盛韬.中国科学院研究生院(计算技术研究所)2002
- [5].基于语义分析的网络信息采集算法研究与应用[D]. 赵佳鹤.大连理工大学2006
- [6].基于Agent的分布式专业信息采集系统[D]. 胡元军.北京化工大学2007
- [7].基于本体的Web信息采集研究[D]. 王庆涛.中南大学2007
- [8].智能信息采集搜索策略研究[D]. 张玲.湖南大学2004
- [9].基于主题信息采集中网页分类系统研究[D]. 万小容.昆明理工大学2006
- [10].Web信息获取技术研究与实现[D]. 张驰.西北工业大学2001