中国科技论文在线文献的数据预处理研究

中国科技论文在线文献的数据预处理研究

论文摘要

本文主要是针对中国科技论文在线文献的数据预处理工作,中国科技论文在线首发论文库存在将近4万条数据,面对海量的文献数据,对其进行数据挖掘,理解背后隐藏的关于所发表的论文文献以及作者的本质特征,发掘有价值的知识是必要的。然而对这些数据进行预处理,提高数据的质量,是这一目标实现的前提。论文通过对中国科技论文在线首发论文库的数据进行预处理可以为以后的数据挖掘提供高质量的数据。本文主要是对属性和属性取值的预处理,对属性的预处理主要是指属性的删除和属性的构造,对属性取值预处理主要是进行数据清理、变换、归约和离散化。数据清理是指对空缺值、不一致数据等进行处理,把原始数据变换成适合数据挖掘的形式,对数据进行数据归约从而减少数据挖掘时的数据量。文中还运用了聚类分析和主成分分析的方法,目的都是为其后的数据挖掘提供高质量的数据。本文通过对中国科技论文在线的原始数据进行预处理得到了适用于数据挖掘的数据,所得到的数据可以直接用于进行中国科技论文在线文献的数据挖掘。

论文目录

  • 内容提要
  • 第1章 绪论
  • 1.1 问题的提出
  • 1.1.1 问题研究的必要性
  • 1.1.2 问题研究的意义
  • 1.2 研究现状
  • 1.3 论文的主要内容、结构
  • 1.3.1 论文研究的主要内容
  • 1.3.2 论文的研究框架
  • 1.4 本章小结
  • 第2章 数据预处理的任务
  • 2.1 数据预处理步骤
  • 2.2 属性预处理
  • 2.3 数据清理
  • 2.3.1 缺失值的处理
  • 2.3.2 噪声数据的处理
  • 2.3.3 不一致数据的处理
  • 2.3.4 重复数据的处理
  • 2.4 数据集成和变换
  • 2.4.1 数据集成
  • 2.4.2 数据变换
  • 2.5 数据归约和离散化
  • 2.6 本章小结
  • 第3章 中国科技论文在线文献的属性预处理
  • 3.1 中国科技论文在线文献的属性描述
  • 3.2 中国科技论文在线文献的属性删除
  • 3.3 中国科技论文在线文献的属性构造
  • 3.4 本章小结
  • 第4章 中国科技论文在线的数据清理和变换
  • 4.1 中国科技论文在线的属性取值描述
  • 4.2 中国科技论文在线文献的数据清理
  • 4.2.1 作者属性的数据清理
  • 4.2.2 文献属性的数据清理
  • 4.3 中国科技论文在线文献的数据变换
  • 4.4 本章小结
  • 第5章 中国科技论文在线的数据归约和离散化
  • 5.1 数据归约
  • 5.1.1 维度压缩
  • 5.1.2 数据压缩
  • 5.2 数据离散化
  • 5.2.1 著者人数的离散化
  • 5.2.2 基金支持个数的离散化
  • 5.2.3 综合评价星级的离散化
  • 5.2.4 评论数的离散化
  • 5.3 本章小结
  • 第6章 结论与展望
  • 6.1 研究工作总结
  • 6.2 研究的不足与展望
  • 参考文献
  • 致谢
  • 摘要
  • ABSTRACT
  • 相关论文文献

    • [1].中小银行数据挖掘思路浅析[J]. 金融电子化 2020(05)
    • [2].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [3].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [4].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [5].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [6].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [7].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [8].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [9].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [10].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [11].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [12].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [13].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [14].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [15].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [16].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [17].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [18].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [19].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [20].浅析数据挖掘[J]. 内江科技 2020(06)
    • [21].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [22].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [23].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [24].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [25].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [26].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [27].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [28].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [29].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [30].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)

    标签:;  ;  ;  ;  

    中国科技论文在线文献的数据预处理研究
    下载Doc文档

    猜你喜欢