基于XML和SVM的Web文本挖掘研究

基于XML和SVM的Web文本挖掘研究

论文摘要

随着互联网的发展,Internet上的信息快速增长,目前我们面临的情况是一方面用户对快速、准确地获得所需要的信息的渴望,另一方面是Internet上信息量的巨大以及信息内容结构的复杂性,使得处理这些信息具有很多困难。为了解决这个矛盾,Web挖掘技术提供了一种途径,目前Web挖掘的研究正处在不断发展的阶段,需要在理论、实现方法与技术上进行大量的研究。论文主要研究Web文本挖掘技术。论文依照Web文本挖掘的过程对Web文本挖掘进行了详细的研究,构建了一个基于可扩展标记语言(XML)和支持向量机(SVM)的Web文本挖掘模型。这个基于XML和SVM的Web文本挖掘的模型主要包含了Web文本预处理和Web文本挖掘的功能,它的优点在于它利用权威页面的确定、XML技术以及特征提取逐步地缩小了数据量,同时得到了能够准确表达文本内容的特征词条集合,用支持向量机的方法降低高维数据的维数,使文本挖掘处理的数据更加精炼。论文着重对Web文本预处理的过程和方法进行研究,论文提出用XML技术将Web页面上的信息进行结构化,进而再将这些Web文本表示成计算机能够处理的形式,提取出对文本挖掘有用的信息,缩减数据量,形成一个文本特征库来做为Web文本挖掘的基础。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 问题的提出
  • 1.2 Web 文本挖掘概述
  • 1.2.1 Web 文本总结
  • 1.2.2 Web 文本分类
  • 1.2.3 Web 文本聚类
  • 1.3 XML 技术
  • 1.4 支持向量机
  • 1.5 论文的研究思路及工作
  • 第二章 Web 文本分类与聚类方法的比较
  • 2.1 Web 文本分类方法比较
  • 2.2 Web 文本聚类方法比较
  • 第三章 基于XML 和SVM 的Web 文本挖掘模型的构建
  • 3.1 Web 文本挖掘的流程及难点
  • 3.1.1 Web 文本挖掘的流程
  • 3.1.2 Web 文本挖掘的难点
  • 3.2 基于XML 和SVM 的Web 文本挖掘模型的总体结构
  • 3.2.1 模型的逻辑层次
  • 3.2.2 模型的总体结构
  • 3.2.3 模型的优点
  • 第四章 Web 文本预处理研究
  • 4.1 Web 文本抽取研究
  • 4.1.1 权威页面的确定
  • 4.1.2 抽取XML 文档
  • 4.2 Web 文本处理研究
  • 4.3 特征抽取和Web 文本表示的研究
  • 4.3.1 特征抽取方法比较
  • 4.3.2 基于主成分分析的特征抽取的研究
  • 4.3.3 Web 文本表示
  • 第五章 Web 文本挖掘方法的研究与应用
  • 5.1 基于SVM 的Web 文本分类研究
  • 5.2 Web 文本聚类研究
  • 5.3 Web 文本挖掘的应用
  • 结论
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].基于文本挖掘的电商评论情感分析[J]. 产业与科技论坛 2020(02)
    • [2].智能时代的教育文本挖掘模型与应用[J]. 现代远程教育研究 2020(05)
    • [3].文本挖掘领域研究现状与趋势分析[J]. 武汉船舶职业技术学院学报 2018(02)
    • [4].文本挖掘在药物靶位研究中的应用[J]. 中华医学图书情报杂志 2017(03)
    • [5].文本挖掘重点技术研究[J]. 漯河职业技术学院学报 2015(05)
    • [6].让标点符号教学“厚实”起来[J]. 福建基础教育研究 2016(12)
    • [7].基于文本挖掘的商学院数字创新课程研究[J]. 当代教研论丛 2017(04)
    • [8].文本特征提取研究现状分析与展望[J]. 科技创新与品牌 2017(04)
    • [9].基于文本挖掘的不同层次大学生英语作文的词汇和主题特征分析[J]. 英语研究 2017(01)
    • [10].基于文本挖掘的电子商务市场表现研究[J]. 科学中国人 2017(12)
    • [11].文本图表示模型及其在文本挖掘中的应用[J]. 情报学报 2013(12)
    • [12].基于文本挖掘的社会资本与大学生就业质量的关联性研究[J]. 社会保障研究 2018(04)
    • [13].基于疾病数据库的文本挖掘工具对比研究[J]. 中华医学图书情报杂志 2018(06)
    • [14].基于文本挖掘的5G技术研究热点分析[J]. 科技管理研究 2020(19)
    • [15].基于云计算的海量文本挖掘关键技术研究[J]. 信息与电脑(理论版) 2014(16)
    • [16].基于文本挖掘的国外移动图书馆研究热点分析[J]. 内蒙古科技与经济 2018(19)
    • [17].基于聚类分析的国内文本挖掘热点与趋势研究[J]. 情报学报 2019(06)
    • [18].谈小学语文教学“文本挖掘”的几个层面——从人教版小学语文第十册《草原》说起[J]. 中国农村教育 2019(24)
    • [19].基于文本挖掘的论坛热点问题时变分析[J]. 软件 2017(04)
    • [20].文本挖掘口角升温[J]. 世界科学 2013(05)
    • [21].基于文本挖掘法的北京市家庭医生评价体系构建及实证研究[J]. 中国全科医学 2020(25)
    • [22].基于文本挖掘和复杂网络的中美电商专利比较研究[J]. 情报杂志 2019(06)
    • [23].大数据环境下的文本挖掘教学内容探讨[J]. 无线互联科技 2018(09)
    • [24].主题模型在临床文本挖掘中的应用现状[J]. 医学信息学杂志 2018(05)
    • [25].自动术语识别——对科技文献进行文本挖掘的重要技术方法[J]. 现代图书情报技术 2008(08)
    • [26].语义文本挖掘算法优化研究[J]. 山东工业技术 2018(07)
    • [27].基于文本挖掘的形态分析方法的关键问题[J]. 图书情报工作 2012(04)
    • [28].基于专利文本挖掘的科技文化产业技术发展趋势研究[J]. 科技进步与对策 2019(23)
    • [29].中文文本挖掘的流程与工具分析[J]. 科技创新导报 2019(19)
    • [30].在线评论文本挖掘对电商的影响研究[J]. 中国商论 2018(33)

    标签:;  ;  ;  ;  

    基于XML和SVM的Web文本挖掘研究
    下载Doc文档

    猜你喜欢