论文摘要
随着Web的不断发展和数据量的增加,Web用户越来越依靠搜索引擎来检索信息。特别是对于企业用户,从Web上搜集信息、感知竞争变化、了解竞争对手动向、制定经营战略和竞争决策尤为重要。数据挖掘技术具有从大量复杂数据中发现规律的能力,因此,将数据挖掘的思想和方法应用到搜索引擎中:针对企业建立搜索引擎从而提高企业用户检索信息的效率,帮助用户从海量信息中得到真正有价值的情报,指导企业的经营战略和决策,有重要的实际意义。论文以某企业情报部门为企业内部建立的网站中搜索引擎系统为背景展开。分析了该企业竞争情报系统的需求;系统地研究了各种搜索引擎及Web挖掘技术特点;提出了一个适合于企业应用领域的竞争情报子系统构架;设计并实现了该企业内部网的搜索引擎子系统。论文讨论的内容包括:1.综述了数据挖掘的主要方法、常用技术以及挖掘过程;讨论了Web挖掘的定义、分类、流程、应用领域、研究方向以及当前面临的问题。2.深入探讨了面向特定主题信息的专业搜索引擎所采用的各项技术,为企业提供特有的检索服务确定了技术路线。3.结合实际的项目,将数据挖掘中的文本挖掘和结构挖掘等技术应用到实际项目中,搭建了系统结构,并给出了部分实现以及运行效果。
论文目录
摘要Abstract第1章 绪论1.1 课题背景意义1.1.1 研究背景1.1.2 企业竞争情报搜索系统概述1.2 国内外现状1.2.1 搜索引擎国内外现状1.2.2 企业专用搜索引擎特点1.3 数据挖掘在搜索引擎中的应用1.4 课题研究内容及结构1.4.1 论文研究内容1.4.2 论文结构第2章 数据挖掘及搜索技术概述2.1 数据挖掘研究2.1.1 Web挖掘定义及其流程2.1.2 Web挖掘任务分类2.1.3 Web挖掘技术分类2.2 搜索引擎2.2.1 搜索引擎的概述2.2.2 搜索引擎的工作流程2.2.3 搜索引擎的分类第3章 系统分析3.1 需求分析3.2 系统结构分析第4章 系统设计4.1 信息获取策略4.1.1 主题页面分布特征4.1.2 主题爬虫设计思想和目标4.1.3 爬虫结构及流程4.1.4 主题相关性判定策略4.2 网页的结构分析和去重4.2.1 网页结构分析4.2.2 网页的去重4.3 网页文本分析技术4.3.1 分词技术4.3.2 文本的特征向量提取4.3.3 文本摘要4.4 索引的生成4.4.1 索引的结构4.4.2 网页索引的生成4.5 检索4.5.1 检索相关网页4.5.2 文本分类4.5.3 文本聚类4.5.4 检索结果排序第5章 企业竞争情报系统的实现5.1 研究开发环境5.2 竞争情报系统的数据库结构5.3 系统各功能模块的关键代码5.4 系统运行页面结束语致谢参考文献攻读学位期间发表学术论文
相关论文文献
标签:数据挖掘论文; 挖掘论文; 搜索引擎论文; 文本挖掘论文; 结构挖掘论文; 特征向量空间论文; 主题爬虫论文;