面向企业竞争情报的Web文本挖掘技术研究

面向企业竞争情报的Web文本挖掘技术研究

论文摘要

目前,Internet以惊人的速度向前发展,Web作为信息发布与处理的主要平台,蕴含着大量人们迫切需要的知识。而如何将Web中的海量信息中的知识提取并加以利用,一直是人们努力探索的问题。因此,Web文本挖掘技术应运而生,如何通过Web文本挖掘技术来提高文本情报的利用价值成为本文研究的重点。本文通过分析Web页面结构,设计和实现了解析HTML文档树的方法,从Web页面中抽取出了对企业有价值的文本内容。采用了基于字典的统计分词算法对文本进行分词处理,并在此基础上去除了文本中的无意义词。在分析已有关键词提取方法的基础上,引入了一种基于词的统计和分布的权重计算方式实现了文本关键词的提取。综合考虑关键词、句子在文章中的位置以及特殊标记等因素,采取直接从文中提取句子的方法实现了文摘的自动获取。针对重复的文本情报,在计算文本特征句最长公共子序列的基础上实现了文本去重。本文同时分析了SVM分类器所存在的问题,在SVM分类器两类可分的基础上通过结合二叉决策树实现了多类可分,并且设计了SVM决策树的生成算法,然后在此基础上实现了文本分类。综合本文中研究的知识和技术,设计和实现了面向企业竞争情报的Web文本挖掘模块,并应用于企业竞争情报分析与挖掘服务系统中。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 国内外现状
  • 1.3 研究内容和组织结构
  • 第二章 企业竞争情报简介
  • 2.1 竞争情报的定义
  • 2.2 竞争情报的特征和意义
  • 2.3 竞争情报的基本理论和研究方法
  • 2.4 竞争情报的数据来源
  • 第三章 WEB 文本挖掘简介
  • 3.1 WEB 挖掘
  • 3.2 WEB 挖掘的特点
  • 3.3 WEB 挖掘的分类
  • 3.4 WEB 文本挖掘
  • 3.4.1 WEB 文本挖掘概述
  • 3.4.2 文本挖掘的过程与模型结构
  • 第四章 WEB 文本挖掘相关技术
  • 4.1 Web 页面预处理
  • 4.1.1 Web 页面结构分析
  • 4.1.2 Web 页面结构解析
  • 4.2 文本分词技术
  • 4.2.1 汉语切分规则
  • 4.2.2 汉语词切分方法
  • 4.2.3 文本分词处理
  • 4.3 关键词提取技术
  • 4.3.1 相关技术简介
  • 4.3.2 关键词的权重
  • 4.4 自动摘要技术
  • 4.4.1 自动摘要方法简介
  • 4.4.2 基于统计和结构分析的自动摘要方法
  • 4.5 文本去重技术
  • 4.5.1 文本去重概述
  • 4.5.2 文本特征表示
  • 4.5.3 文本去重算法设计
  • 4.5.4 实验结果
  • 4.6 文本分类相关算法
  • 4.6.1 朴素贝叶斯算法
  • 4.6.2 K-最近邻方法
  • 4.6.3 中心点法
  • 第五章 基于 SVM 决策树的文本分类技术
  • 5.1 文本分类概述
  • 5.1.1 文本分类的基本过程
  • 5.1.2 基于 SVM 的文本分类的优势
  • 5.2 文本特征提取
  • 5.2.1 文本表示模型
  • 5.2.2 特征选择
  • 5.2.3 文本向量生成
  • 5.3 基于 SVM 决策树的文本分类方法
  • 5.3.1 支持向量机(SVM)和核函数
  • 5.3.2 SVM 决策树生成算法设计
  • 5.3.3 文本分类实现
  • 5.4 实验结果
  • 第六章 面向企业竞争情报的 Web 文本挖掘系统设计与实现
  • 6.1 企业竞争情报分析与挖掘服务系统
  • 6.2 Web 文本挖掘系统总体设计
  • 6.2.1 系统总体架构
  • 6.2.2 系统功能模块设计
  • 6.3 Web 文本挖掘模块详细设计
  • 6.3.1 文本分词详细设计
  • 6.3.2 关键词提取和自动摘要详细设计
  • 6.3.3 文本去重详细设计
  • 6.3.4 文本分类详细设计
  • 6.4 系统数据库设计
  • 6.5 运行结果显示
  • 第七章 总结与展望
  • 7.1 工作总结
  • 7.2 今后的展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].大数据下企业竞争情报人员胜任力模型研究[J]. 现代情报 2020(05)
    • [2].大数据环境下新创企业竞争情报预警研究[J]. 情报科学 2020(06)
    • [3].基于网络广告的企业竞争情报策略分析[J]. 甘肃科技 2020(17)
    • [4].基于关键词共现和社会网络分析法的我国企业竞争情报热点主题研究[J]. 情报探索 2019(08)
    • [5].基于大数据时代下的企业竞争情报创新研究[J]. 中国国际财经(中英文) 2018(01)
    • [6].第三只眼看企业竞争情报——知名外企法务侍丹青访谈[J]. 竞争情报 2018(02)
    • [7].大数据环境下企业竞争情报发展研究[J]. 才智 2018(15)
    • [8].企业竞争情报的需求与服务现状[J]. 中华建设 2017(02)
    • [9].企业竞争情报能力要素分析[J]. 现代工业经济和信息化 2017(05)
    • [10].大数据背景下企业竞争情报人员激励机制研究[J]. 情报科学 2017(08)
    • [11].企业竞争情报应用现状调查与分析[J]. 情报理论与实践 2016(02)
    • [12].基于多国政府开展企业竞争情报的启示[J]. 商 2016(06)
    • [13].企业竞争情报搜集与分析方法[J]. 商 2016(16)
    • [14].企业竞争情报的2015新挑战[J]. 中外管理 2015(02)
    • [15].基于大数据的企业竞争情报分析方法研究[J]. 图书馆学刊 2015(02)
    • [16].企业竞争情报价值的体现[J]. 竞争情报 2014(03)
    • [17].构建企业竞争情报预警机制[J]. 竞争情报 2008(04)
    • [18].跨国企业竞争情报战略实施[J]. 竞争情报 2011(01)
    • [19].关于企业竞争情报实践的另类思考——企业情报人心旅路程和职业感悟[J]. 竞争情报 2012(04)
    • [20].电子商务视角下的企业竞争情报战略行为优化[J]. 武汉商学院学报 2015(01)
    • [21].移动电子商务对企业竞争情报的影响[J]. 现代经济信息 2015(13)
    • [22].企业竞争情报质量的驱动因素和使能因素分析[J]. 情报科学 2015(09)
    • [23].微信平台下企业竞争情报搜集策略研究[J]. 情报杂志 2015(11)
    • [24].运用概念格分析企业竞争情报需求[J]. 现代图书情报技术 2013(10)
    • [25].企业竞争情报战略研究[J]. 黑龙江科技信息 2013(30)
    • [26].企业竞争情报作战室方法在管理学教学中的应用[J]. 时代教育 2013(13)
    • [27].企业竞争情报中微博分析技术研究:基于需求驱动视角[J]. 情报理论与实践 2015(02)
    • [28].唯有“精准”才能有效——对竞争情报支撑企业决策的再认识[J]. 竞争情报 2014(03)
    • [29].中国企业竞争情报实施现状调查研究报告[J]. 竞争情报 2009(02)
    • [30].大数据时代企业竞争情报运行保障机制建设研究[J]. 现代情报 2015(07)

    标签:;  ;  ;  ;  

    面向企业竞争情报的Web文本挖掘技术研究
    下载Doc文档

    猜你喜欢