论文摘要
随着电子文本以爆炸式地速度增长,从海量的文本数据中寻找有用的知识已成为数据挖掘的重要课题。本文以“十一五”国家科技支撑计划重点项目——“综合风险防范(IRG)关键技术研究与示范”(2006BAD20B02)为研究背景,针对综合风险信息智能采集和分类任务结合互联网上风险灾害信息的特点,研究文本挖掘中的表示模型、特征选择、文本分类和文本关联关键技术,研究具有重要意义和实用价值。主要研究进展包括:(1)提出了一种综合风险信息的表示模型。分析了空间向量模型的tf~*idf权重计算方法忽略了特征在类间分布情况的不足,结合综合风险信息为Web信息的特点,设计了一种综合考虑特征项频率、逆文档频率、特征项类别权重和HTML标签的综合风险信息的特征权重计算方法。实验证明可以改善风险信息的分类性能。(2)提出了基于ReliefF结合RMI评估函数的特征选择方法。针对传统文本挖掘的特征选择方法因忽略了特征项之间的相关性导致特征子集中存在大量冗余特征的问题,设计一种组合式的文本特征选择方法,基于ReliefF特征选择算法将无关特征去除的基础上,利用RMI评估函数对冗余特征进行过滤。实验证明与传统的特征选择方法相比可有效去除文本特征中的冗余性。(3)提出了基于可信度的AttributeBagging文本分类算法。针对Bagging算法中弱分类器具有相同权重的不合理问题,设计改进的Bagging算法,通过对训练样本的属性进行重取样获得多个训练样本集合,以kNN为弱分类器,计算各个弱分类器的可信度得到其投票权重,最终根据投票规则获得集成分类结果。实验证明该算法构建的文本分类器比Attribute Bagging算法具有更好的分类效果。(4)提出了基于灰色关联分析的主题词提取方法。通过计算综合风险信息的给定主题词与特征项之间的灰色关联度来实现主题词的提取,其主要优点是克服了“小样本”问题,对于样本量的多少和有无规律同样适用。解决了数理统计的主题词提取方法忽略专业低频词贡献的问题。(5)将文本挖掘关键技术研究成果应用于综合风险信息网络中,结合网络主题爬虫技术,设计实现了互联网上综合风险信息的智能采集和分类,取得了良好的效果。
论文目录
相关论文文献
- [1].全国灾害综合风险普查专题会议在京召开[J]. 中国减灾 2020(03)
- [2].长江经济带多灾种综合风险评价与防范的思考[J]. 地球科学进展 2020(08)
- [3].国务院开展第一次全国自然灾害综合风险普查[J]. 中国安全生产 2020(07)
- [4].云南:第一阶段清查工作3个国家试点县自然灾害综合风险普查全面完成[J]. 中国减灾 2020(17)
- [5].凝聚力——灾害综合风险防范问题探究的“新思路”[J]. 中国减灾 2020(21)
- [6].全国灾害综合风险普查试点工作启动[J]. 中国减灾 2019(17)
- [7].摸清底数 全面评估——我国将开展首次自然灾害综合风险普查[J]. 发明与创新(大科技) 2020(07)
- [8].青海省人民政府办公厅关于成立青海省第一次全国自然灾害综合风险普查领导小组的通知[J]. 青海政报 2020(14)
- [9].辽宁省人民政府办公厅关于开展第一次全国自然灾害综合风险普查的通知[J]. 辽宁省人民政府公报 2020(20)
- [10].广东省人民政府办公厅关于成立广东省第一次全国自然灾害综合风险普查领导小组的通知[J]. 广东省人民政府公报 2020(25)
- [11].山东省人民政府办公厅关于开展第一次全国自然灾害综合风险普查的通知[J]. 山东省人民政府公报 2020(24)
- [12].全国及湖北省新冠肺炎综合风险指数分析及比较[J]. 科技导报 2020(04)
- [13].呼吸内科实施综合风险控制管理在预防和减少风险事件、提高患者满意度的作用分析[J]. 医疗装备 2015(01)
- [14].社会——生态系统综合风险防范的凝聚力模式[J]. 地理学报 2014(06)
- [15].创建新型综合风险保障体系[J]. 中国金融 2011(09)
- [16].我国城市综合风险管理体系建设的发展脉络及路径探索研究[J]. 安全 2020(03)
- [17].供电综合风险所控制探析[J]. 农村电工 2012(11)
- [18].县域自然灾害综合风险区划图编制——以滦县为例[J]. 自然灾害学报 2013(03)
- [19].福建省枇杷气象灾害综合风险评估[J]. 应用气象学报 2014(02)
- [20].基于道路交通安全综合风险水平的城市模糊聚类评价[J]. 中北大学学报(自然科学版) 2018(02)
- [21].中国国债风险预警实证分析[J]. 大连海事大学学报(社会科学版) 2012(06)
- [22].北京市测绘设计研究院成功中标“隐患治理-北京市灾害综合风险普查试点”项目[J]. 城市勘测 2020(03)
- [23].城市重大环卫工程规划实施综合风险评价研究——以《深圳市坪山环境园详细规划》实施为例[J]. 城市规划学刊 2010(S1)
- [24].美国环保署综合风险信息系统的基本情况研究[J]. 环境与可持续发展 2018(03)
- [25].城市道路交通安全综合风险预警控制研究[J]. 中国安全科学学报 2016(02)
- [26].湘江湖南段洪水灾害综合风险区划[J]. 长江流域资源与环境 2011(11)
- [27].警惕台湾果蔬病虫随贸易传入大陆地区[J]. 农药市场信息 2020(08)
- [28].基于综合风险区划的玉米保险差异化费率厘定研究[J]. 农林经济管理学报 2017(01)
- [29].水利工程风险分析研究现状的分析[J]. 中国高新区 2017(17)
- [30].基于综合风险指数的城市雨水利用风险评估[J]. 安徽农业科学 2012(05)