文本挖掘算法及其在知识管理中的应用研究

文本挖掘算法及其在知识管理中的应用研究

论文摘要

随着知识经济的到来,知识管理在社会经济中的作用日益重要。大多数的知识管理研究是为企业服务的,针对科研管理部门的知识管理研究非常少,本文对我国科研管理部门的知识管理问题进行研究。与其他领域相比,科研管理部门的知识管理有一定的特殊性。比如,科研管理部门管理着蕴含大量知识的立项建议申请书。挖掘并利用申请书中的知识,能够在从科学研究整体层面、学科领域层面和项目管理层面对科研管理工作提供决策支持。申请书中的知识隐含在申请书内容之中,从申请书中挖掘知识会面临如下问题:申请书的知识表示不能完全依赖于词典;申请书研究内容与申报学科领域不能完全吻合;学科代码体系结构与实际研究领域的体系结构不能完全一致。针对上述问题,本文在以下几个方面进行了研究:第一,提出一种不依赖于词典抽取高频词的桥接模式滤除算法(BPFA)。首先基于N-gram技术获取文本中的汉字结合模式及出现频率,然后通过消除桥接频率得到模式的支持频率,并依此来判断和提取正确词语。实验结果显示,BPFA能够有效提高分词结果的查准率和查全率。该算法适用于对词语频率敏感的中文信息处理。本文应用该算法,抽取申请书中出现的新术语,补充到系统词表中。第二,粗分类数据中包含有文本内容与类别标记不符的噪声数据,这些噪声数据会对文本分类结果的精度产生不良影响。本文提出一种针对粗分类数据的噪音修正算法。首先建立文档关联网络,把文档上标记的类别作为原始的社团结构,并用模块度衡量社团结构的质量,通过优化模块度指标把噪声数据调整到正确的类别中,从而提高数据质量。实验结果表明,本文所提算法能够有效修正粗分类数据中的噪声,具有较高的有效性和鲁棒性。该算法可以用于文本分类训练数据的预处理,或作为辅助技术用于文献库建设等工作。本文把申报到各个学科代码下的申请书作为粗分类数据,应用该算法把与代码不符的申请书调整到正确的代码中。并根据调整后的数据建立代码模型,分析代码所代表研究领域的内涵和外延、代码之间的交叉关系。第三,提出基于公共连接强度的快速聚类算法。利用社团成员之间的相似关系定义了社团连接强度,根据社团的公共连接强度定义了一种新的相似度计算方法,并应用该相似度计算方法提出一种凝聚聚类算法。在相似度计算中,综合考虑了社团内部和外部结构关系,因此能够避免其他算法在聚类初期容易出现的聚类错误。分别对拓扑和加权的实验数据进行聚类,实验结果证明了所提算法比其他算法更为有效。本文应用该算法对申请书进行聚类分析,形成了项目类,并对项目类和学科代码之间的关系进行了分析。本文在理论方法研究的基础上,对国家自然科学基金委员会的基金管理工作进行了应用研究,分析了我国基础科学研究的整体发展状况和发展规律、各个学科领域的研究状况及其关系等,为制定发展规划、发展战略、学科代码体系调整以及项目管理提供决策支持。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 选题背景
  • 1.2 文本挖掘技术综述
  • 1.2.1 特征提取
  • 1.2.2 文本表示
  • 1.2.3 文本分类技术
  • 1.2.4 文本聚类技术
  • 1.3 知识管理综述
  • 1.4 本论文的主要工作
  • 第二章 无词典的中文文本特征提取方法研究
  • 2.1 无词典分词模型
  • 2.2 模式滤除算法
  • 2.2.1 桥接模式与桥接模式的支持频率
  • 2.2.2 基于出现频率的结合模式筛选算法
  • 2.2.3 基于支持频率的结合模式筛选算法
  • 2.2.4 BPFA算法流程
  • 2.3 实验结果及分析
  • 2.4 本章小结
  • 第三章 文本粗分类数据中噪声修正的网络算法
  • 3.1 噪声数据对分类结果的影响
  • 3.2 文档关联网络
  • 3.2.1 网络的构建及社团结构
  • 3.2.2 社团结构的评价指标
  • 3.3 噪声数据的修正算法及实验结果
  • 3.3.1 噪声数据的修正算法
  • 3.3.2 实验结果分析
  • 3.4 噪声修正改进算法及实验结果
  • 3.4.1 噪声修正的改进算法
  • 3.4.2 实验结果分析
  • 3.5 本章小结
  • 第四章 基于公共连接强度的文本聚类算法研究
  • 4.1 相关研究介绍
  • 4.2 基于公共连接强度的聚类算法
  • 4.3 实验结果
  • 4.3.1 聚类结果的评价指标
  • 4.3.2 拓扑网络数据的实验结果
  • 4.3.3 带权网络数据的实验结果
  • 4.4 本章小结
  • 第五章 文本挖掘方法在基金项目管理中的应用
  • 5.1 分析系统的整体框架
  • 5.2 项目关联网络的构建
  • 5.2.1 项目的特征向量模型
  • 5.3 项目关联网络的特性分析
  • 5.3.1 WRAN的统计特性
  • 5.3.1.1 距离与中心性
  • 5.3.1.2 平均集聚系数
  • 5.4 项目关联网络在项目管理中的应用
  • 5.4.1 在项目判重中的应用
  • 5.4.2 寻找热点研究领域
  • 5.5 学科分类知识发现
  • 5.5.1 数据及分析指标
  • 5.5.2 基于文本分类技术的学科知识发现
  • 5.5.3 基于噪声修正的学科知识发现
  • 5.6 聚类算法在研究领域知识发现中的应用
  • 5.7 本章小结
  • 第六章 总结与展望
  • 6.0.1 总结
  • 6.0.2 展望
  • 参考文献
  • 攻读博士学位期间的研究成果及发表的论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    文本挖掘算法及其在知识管理中的应用研究
    下载Doc文档

    猜你喜欢