面向G2C交互平台的Web文本挖掘模型和方法研究

面向G2C交互平台的Web文本挖掘模型和方法研究

论文摘要

互联网相关技术飞速发展,各级各部门政府都建立起了电子政务G2C平台,政民互动环节进一步加强。群众在电子政务G2C交互平台上反映的信息中隐含着大量的即将可能发生的重大事件的苗头和线索,因此把Web文本挖掘技术引入到电子政务G2C平台中来,进而收集分析民众在G2C等相关平台上所反映的信息,及时的挖掘出有关重要事件的线索,这对防范重大事件的发生有着重要意义。本文针对G2C电子政务平台的民众留言等文本信息进行特征提取和文本分类,并根据特征词条的权值和敏感词库的权值信息划分出具体的重要程度的级别,主要工作有:首先,本文在分析G2C平台中民众留言等文本信息的特点的基础上,阐述了基于G2C电子政务平台的Web文本挖掘系统(GWTMS)的设计思路,进而提出了GWTMS系统的体系结构。重点是设计了一个基于Web文本挖掘的G2C文本挖掘模型,该模型分为五个主要组成部分,即Web文本预处理模块、文本自动分类模快、文本信息分层处理模块、统计分析模块、绩效分析模块。其次,本文针对GWTMS模型中自动分类的问题,分析了自动分类的一种算法,并对其进行了改进。具体是在传统的TF·IDF特征加权方法的基础上,提出了一种新的文本特征加权方法,即TF·IDF·Ci方法。该种方法是对原有方法的改进,增加了一个能够反映类与类的区分能力的加权,提高了类与类的区分能力。实验表明利用我们改进的TF·IDF·Ci加权方法可以明显的提高分类精度,而且在某种程度上降低了对特征维数的敏感性,这对于那些对特征维数敏感的分类器尤其有用。最后,本文为了验证GWTMS模型的合理性和可行性。在自动分类的基础上设计并实现了一个文本分层处理的算法,即原始文本经过特征提取、分类之后,要给出一个重要程度的级别,从而使系统能够自动的发送给相应级别的部门或领导进行处理。还设计了一个敏感词库。敏感词库的设计、词条权值的划分是分层处理确定的基础,也就是说经过提取的特征词条和敏感词库里定义的词条的权值设定,才能够得出一个总的权值,这个总的权值就是最后划分级别的依据。通过系统实现,得到了实验结果。实验结果证明了基于本文设计的自动分类算法和分层处理算法的GWTMS模型是合理的、可行的。

论文目录

  • 摘要
  • Abstract
  • 插图索引
  • 附表索引
  • 第1章 绪论
  • 1.1 引言
  • 1.2 本文研究背景、意义和现状分析
  • 1.2.1 本文研究背景与意义
  • 1.2.2 电子政务的发展现状
  • 1.2.3 Web 文本挖掘的研究现状
  • 1.2.4 数据挖掘技术在电子政务中的应用分析
  • 1.3 本论文的主要研究内容和组织结构
  • 1.3.1 主要研究内容
  • 1.3.2 论文的组织结构
  • 第2章 Web文本挖掘的基本理论与方法
  • 2.1 引言
  • 2.2 Web 文本挖掘概述
  • 2.3 Web 文本挖掘步骤与方法
  • 2.3.1 文本特征表示
  • 2.3.2 中文文本词法分析
  • 2.3.3 文本特征项抽取
  • 2.3.4 Web 文本挖掘方法
  • 2.3.5 Web 文本挖掘后处理
  • 2.4 文本自动分类研究进展
  • 2.5 文本自动分类算法
  • 第3章 基于G2C 的Web 文本挖掘模型(GWTMS)
  • 3.1 引言
  • 3.2 GWTMS 设计思路
  • 3.3 GWTMS 体系结构
  • 3.4 GWTMS 系统功能
  • 3.4.1 Web 文本预处理模块
  • 3.4.2 Web 文本自动分类模块
  • 3.4.3 分层处理模块
  • 3.4.4 统计分析模块
  • 3.4.5 绩效分析模块
  • 3.5 小结
  • 第4章 GWTMS 文本自动分类模块核心算法改进
  • 4.1 引言
  • 4.2 TF?IDF 方法
  • 4.3 TF?IDF 方法存在的问题
  • 4.4 改进的TF?IDF 方法(TF?IDF?Ci)
  • 4.5 分类模型及策略
  • 4.5.1 分类模型
  • 4.5.2 相似度的衡量
  • 4.5.3 分类策略
  • 4.6 算法实验及结果分析
  • 4.7 小结
  • i方法的 GWTMS 实验研究与结果分析'>第5章 基于 TF·IDF·Ci方法的 GWTMS 实验研究与结果分析
  • 5.1 引言
  • 5.2 敏感词库设计
  • 5.3 自动分层模块中词库特征词条权值设计
  • 5.4 分层处理设计
  • 5.5 实验设计与结果分析
  • 5.5.1 实验语料
  • 5.5.2 实验流程
  • 5.5.3 主要算法设计与实现
  • 5.5.4 实验结果分析
  • 5.6 小结
  • 结论
  • 参考文献
  • 致谢
  • 附录A 攻读学位期间发表的学术论文目录
  • 相关论文文献

    • [1].基于文本挖掘的电商评论情感分析[J]. 产业与科技论坛 2020(02)
    • [2].智能时代的教育文本挖掘模型与应用[J]. 现代远程教育研究 2020(05)
    • [3].文本挖掘领域研究现状与趋势分析[J]. 武汉船舶职业技术学院学报 2018(02)
    • [4].文本挖掘在药物靶位研究中的应用[J]. 中华医学图书情报杂志 2017(03)
    • [5].文本挖掘重点技术研究[J]. 漯河职业技术学院学报 2015(05)
    • [6].让标点符号教学“厚实”起来[J]. 福建基础教育研究 2016(12)
    • [7].基于文本挖掘的商学院数字创新课程研究[J]. 当代教研论丛 2017(04)
    • [8].文本特征提取研究现状分析与展望[J]. 科技创新与品牌 2017(04)
    • [9].基于文本挖掘的不同层次大学生英语作文的词汇和主题特征分析[J]. 英语研究 2017(01)
    • [10].基于文本挖掘的电子商务市场表现研究[J]. 科学中国人 2017(12)
    • [11].文本图表示模型及其在文本挖掘中的应用[J]. 情报学报 2013(12)
    • [12].基于文本挖掘的5G技术研究热点分析[J]. 科技管理研究 2020(19)
    • [13].基于文本挖掘的社会资本与大学生就业质量的关联性研究[J]. 社会保障研究 2018(04)
    • [14].基于疾病数据库的文本挖掘工具对比研究[J]. 中华医学图书情报杂志 2018(06)
    • [15].基于云计算的海量文本挖掘关键技术研究[J]. 信息与电脑(理论版) 2014(16)
    • [16].基于文本挖掘的国外移动图书馆研究热点分析[J]. 内蒙古科技与经济 2018(19)
    • [17].基于聚类分析的国内文本挖掘热点与趋势研究[J]. 情报学报 2019(06)
    • [18].谈小学语文教学“文本挖掘”的几个层面——从人教版小学语文第十册《草原》说起[J]. 中国农村教育 2019(24)
    • [19].基于文本挖掘的论坛热点问题时变分析[J]. 软件 2017(04)
    • [20].文本挖掘口角升温[J]. 世界科学 2013(05)
    • [21].基于文本挖掘法的北京市家庭医生评价体系构建及实证研究[J]. 中国全科医学 2020(25)
    • [22].基于文本挖掘和复杂网络的中美电商专利比较研究[J]. 情报杂志 2019(06)
    • [23].大数据环境下的文本挖掘教学内容探讨[J]. 无线互联科技 2018(09)
    • [24].主题模型在临床文本挖掘中的应用现状[J]. 医学信息学杂志 2018(05)
    • [25].自动术语识别——对科技文献进行文本挖掘的重要技术方法[J]. 现代图书情报技术 2008(08)
    • [26].语义文本挖掘算法优化研究[J]. 山东工业技术 2018(07)
    • [27].基于文本挖掘的形态分析方法的关键问题[J]. 图书情报工作 2012(04)
    • [28].基于专利文本挖掘的科技文化产业技术发展趋势研究[J]. 科技进步与对策 2019(23)
    • [29].中文文本挖掘的流程与工具分析[J]. 科技创新导报 2019(19)
    • [30].在线评论文本挖掘对电商的影响研究[J]. 中国商论 2018(33)

    标签:;  ;  ;  ;  ;  ;  

    面向G2C交互平台的Web文本挖掘模型和方法研究
    下载Doc文档

    猜你喜欢