文本挖掘技术研究及其在综合风险信息网络中的应用

文本挖掘技术研究及其在综合风险信息网络中的应用

论文摘要

随着电子文本以爆炸式地速度增长,从海量的文本数据中寻找有用的知识已成为数据挖掘的重要课题。本文以“十一五”国家科技支撑计划重点项目——“综合风险防范(IRG)关键技术研究与示范”(2006BAD20B02)为研究背景,针对综合风险信息智能采集和分类任务结合互联网上风险灾害信息的特点,研究文本挖掘中的表示模型、特征选择、文本分类和文本关联关键技术,研究具有重要意义和实用价值。主要研究进展包括:(1)提出了一种综合风险信息的表示模型。分析了空间向量模型的tf~*idf权重计算方法忽略了特征在类间分布情况的不足,结合综合风险信息为Web信息的特点,设计了一种综合考虑特征项频率、逆文档频率、特征项类别权重和HTML标签的综合风险信息的特征权重计算方法。实验证明可以改善风险信息的分类性能。(2)提出了基于ReliefF结合RMI评估函数的特征选择方法。针对传统文本挖掘的特征选择方法因忽略了特征项之间的相关性导致特征子集中存在大量冗余特征的问题,设计一种组合式的文本特征选择方法,基于ReliefF特征选择算法将无关特征去除的基础上,利用RMI评估函数对冗余特征进行过滤。实验证明与传统的特征选择方法相比可有效去除文本特征中的冗余性。(3)提出了基于可信度的AttributeBagging文本分类算法。针对Bagging算法中弱分类器具有相同权重的不合理问题,设计改进的Bagging算法,通过对训练样本的属性进行重取样获得多个训练样本集合,以kNN为弱分类器,计算各个弱分类器的可信度得到其投票权重,最终根据投票规则获得集成分类结果。实验证明该算法构建的文本分类器比Attribute Bagging算法具有更好的分类效果。(4)提出了基于灰色关联分析的主题词提取方法。通过计算综合风险信息的给定主题词与特征项之间的灰色关联度来实现主题词的提取,其主要优点是克服了“小样本”问题,对于样本量的多少和有无规律同样适用。解决了数理统计的主题词提取方法忽略专业低频词贡献的问题。(5)将文本挖掘关键技术研究成果应用于综合风险信息网络中,结合网络主题爬虫技术,设计实现了互联网上综合风险信息的智能采集和分类,取得了良好的效果。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 文本挖掘概述
  • 1.1.1 文本挖掘定义
  • 1.1.2 文本挖掘的过程
  • 1.1.3 文本挖掘的主要应用
  • 1.1.4 文本挖掘的难点问题
  • 1.2 课题背景与研究意义
  • 1.3 本文研究内容及成果
  • 1.4 本文结构安排
  • 1.5 本章小结
  • 第二章 国内外研究现状分析
  • 2.1 文本表示模型
  • 2.2 文本特征降维
  • 2.3 文本分类方法
  • 2.4 文本关联分析
  • 2.5 性能评估
  • 2.6 基准数据集
  • 2.7 本章小结
  • 第三章 基于向量空间模型的特征权重算法研究
  • 3.1 引言
  • 3.2 向量空间模型
  • 3.3 传统的特征权重计算方法
  • 3.3.1 特征项频率
  • 3.3.2 反文档频率
  • *idf权重'>3.3.3 tf*idf权重
  • *idf特征权重算法研究'>3.4 改进的tf*idf特征权重算法研究
  • *idf特征权重算法局限性'>3.4.1 tf*idf特征权重算法局限性
  • *idf特征权重算法改进'>3.4.2 tf*idf特征权重算法改进
  • 3.4.3 综合风险信息的特征权重计算
  • 3.5 实验结果与分析
  • *idf权重实验'>3.5.1 改进的tf*idf权重实验
  • 3.5.2 综合风险信息权重的实验
  • 3.6 本章小结
  • 第四章 基于ReliefF与RMI评估的特征选择方法研究
  • 4.1 引言
  • 4.2 特征选择概述
  • 4.2.1 特征选择定义
  • 4.2.2 特征选择的理论框架
  • 4.2.3 特征选择类型
  • 4.2.4 评价机制
  • 4.3 文本特征选择方法
  • 4.3.1 文档频率
  • 4.3.2 互信息
  • 4.3.3 信息增益
  • 4.3.4 交叉熵
  • 2-统计量'>4.3.5 x2-统计量
  • 4.4 一种组合式的文本特征选择
  • 4.4.1 传统文本特征选择的局限
  • 4.4.2 特征相关性与冗余性
  • 4.4.3 连续属性离散化
  • 4.4.4 ReliefF算法介绍
  • 4.4.5 ReliefF结合RMI的特征选择方法
  • 4.5 实验及分析
  • 4.6 本章小结
  • 第五章 基于可信度AttributeBagging的文本分类器研究
  • 5.1 集成学习算法概述
  • 5.1.1 集成学习定义及框架
  • 5.1.2 典型的集成学习算法
  • 5.1.3 Bagging算法的理论分析
  • 5.2 常用的文本分类方法
  • 5.2.1 Rocchio
  • 5.2.2 朴素贝叶斯
  • 5.2.3 K最近邻
  • 5.2.4 支持向量机
  • 5.2.5 其他分类方法
  • 5.3 基于Bagging的文本分类算法研究
  • 5.3.1 基于C4.5Bagging的文本分类算法
  • 5.3.2 基于Attribute Bagging的文本分类算法
  • 5.3.3 可信度Attribute Bagging的文本分类算法
  • 5.4 本章小结
  • 第六章 基于灰色关联分析的主题词提取研究
  • 6.1 关联规则概述
  • 6.1.1 关联规则基本定义及度量
  • 6.1.2 经典关联规则算法
  • 6.2 灰色关联规则分析
  • 6.2.1 灰色理论概述
  • 6.2.2 灰色关联空间
  • 6.3 综合风险信息的主题词提取
  • 6.3.1 频繁1-项集的集合构成
  • 6.3.2 主题词的灰色关联度
  • 6.3.3 算法描述
  • 6.4 实验结果及分析
  • 6.5 本章小结
  • 第七章 基于主题爬虫的综合风险信息采集与分类的设计实现
  • 7.1 引言
  • 7.1.1 通用搜索与主题搜索
  • 7.1.2 网络主题爬虫
  • 7.2 系统设计与实现
  • 7.2.1 系统框架与主要模块
  • 7.2.2 系统功能及运行
  • 7.3 主题相关性实验
  • 7.4 本章小结
  • 第八章 结束语
  • 8.1 工作总结
  • 8.2 研究展望
  • 参考文献
  • 攻读博士学位期间取得的科研成果
  • 致谢
  • 相关论文文献

    • [1].全国灾害综合风险普查专题会议在京召开[J]. 中国减灾 2020(03)
    • [2].长江经济带多灾种综合风险评价与防范的思考[J]. 地球科学进展 2020(08)
    • [3].国务院开展第一次全国自然灾害综合风险普查[J]. 中国安全生产 2020(07)
    • [4].云南:第一阶段清查工作3个国家试点县自然灾害综合风险普查全面完成[J]. 中国减灾 2020(17)
    • [5].凝聚力——灾害综合风险防范问题探究的“新思路”[J]. 中国减灾 2020(21)
    • [6].全国灾害综合风险普查试点工作启动[J]. 中国减灾 2019(17)
    • [7].摸清底数 全面评估——我国将开展首次自然灾害综合风险普查[J]. 发明与创新(大科技) 2020(07)
    • [8].青海省人民政府办公厅关于成立青海省第一次全国自然灾害综合风险普查领导小组的通知[J]. 青海政报 2020(14)
    • [9].辽宁省人民政府办公厅关于开展第一次全国自然灾害综合风险普查的通知[J]. 辽宁省人民政府公报 2020(20)
    • [10].广东省人民政府办公厅关于成立广东省第一次全国自然灾害综合风险普查领导小组的通知[J]. 广东省人民政府公报 2020(25)
    • [11].山东省人民政府办公厅关于开展第一次全国自然灾害综合风险普查的通知[J]. 山东省人民政府公报 2020(24)
    • [12].全国及湖北省新冠肺炎综合风险指数分析及比较[J]. 科技导报 2020(04)
    • [13].呼吸内科实施综合风险控制管理在预防和减少风险事件、提高患者满意度的作用分析[J]. 医疗装备 2015(01)
    • [14].社会——生态系统综合风险防范的凝聚力模式[J]. 地理学报 2014(06)
    • [15].创建新型综合风险保障体系[J]. 中国金融 2011(09)
    • [16].我国城市综合风险管理体系建设的发展脉络及路径探索研究[J]. 安全 2020(03)
    • [17].供电综合风险所控制探析[J]. 农村电工 2012(11)
    • [18].县域自然灾害综合风险区划图编制——以滦县为例[J]. 自然灾害学报 2013(03)
    • [19].福建省枇杷气象灾害综合风险评估[J]. 应用气象学报 2014(02)
    • [20].基于道路交通安全综合风险水平的城市模糊聚类评价[J]. 中北大学学报(自然科学版) 2018(02)
    • [21].中国国债风险预警实证分析[J]. 大连海事大学学报(社会科学版) 2012(06)
    • [22].北京市测绘设计研究院成功中标“隐患治理-北京市灾害综合风险普查试点”项目[J]. 城市勘测 2020(03)
    • [23].城市重大环卫工程规划实施综合风险评价研究——以《深圳市坪山环境园详细规划》实施为例[J]. 城市规划学刊 2010(S1)
    • [24].美国环保署综合风险信息系统的基本情况研究[J]. 环境与可持续发展 2018(03)
    • [25].城市道路交通安全综合风险预警控制研究[J]. 中国安全科学学报 2016(02)
    • [26].湘江湖南段洪水灾害综合风险区划[J]. 长江流域资源与环境 2011(11)
    • [27].警惕台湾果蔬病虫随贸易传入大陆地区[J]. 农药市场信息 2020(08)
    • [28].基于综合风险区划的玉米保险差异化费率厘定研究[J]. 农林经济管理学报 2017(01)
    • [29].水利工程风险分析研究现状的分析[J]. 中国高新区 2017(17)
    • [30].基于综合风险指数的城市雨水利用风险评估[J]. 安徽农业科学 2012(05)

    标签:;  ;  ;  ;  ;  

    文本挖掘技术研究及其在综合风险信息网络中的应用
    下载Doc文档

    猜你喜欢