论文摘要
随着知识经济的到来,知识管理在社会经济中的作用日益重要。大多数的知识管理研究是为企业服务的,针对科研管理部门的知识管理研究非常少,本文对我国科研管理部门的知识管理问题进行研究。与其他领域相比,科研管理部门的知识管理有一定的特殊性。比如,科研管理部门管理着蕴含大量知识的立项建议申请书。挖掘并利用申请书中的知识,能够在从科学研究整体层面、学科领域层面和项目管理层面对科研管理工作提供决策支持。申请书中的知识隐含在申请书内容之中,从申请书中挖掘知识会面临如下问题:申请书的知识表示不能完全依赖于词典;申请书研究内容与申报学科领域不能完全吻合;学科代码体系结构与实际研究领域的体系结构不能完全一致。针对上述问题,本文在以下几个方面进行了研究:第一,提出一种不依赖于词典抽取高频词的桥接模式滤除算法(BPFA)。首先基于N-gram技术获取文本中的汉字结合模式及出现频率,然后通过消除桥接频率得到模式的支持频率,并依此来判断和提取正确词语。实验结果显示,BPFA能够有效提高分词结果的查准率和查全率。该算法适用于对词语频率敏感的中文信息处理。本文应用该算法,抽取申请书中出现的新术语,补充到系统词表中。第二,粗分类数据中包含有文本内容与类别标记不符的噪声数据,这些噪声数据会对文本分类结果的精度产生不良影响。本文提出一种针对粗分类数据的噪音修正算法。首先建立文档关联网络,把文档上标记的类别作为原始的社团结构,并用模块度衡量社团结构的质量,通过优化模块度指标把噪声数据调整到正确的类别中,从而提高数据质量。实验结果表明,本文所提算法能够有效修正粗分类数据中的噪声,具有较高的有效性和鲁棒性。该算法可以用于文本分类训练数据的预处理,或作为辅助技术用于文献库建设等工作。本文把申报到各个学科代码下的申请书作为粗分类数据,应用该算法把与代码不符的申请书调整到正确的代码中。并根据调整后的数据建立代码模型,分析代码所代表研究领域的内涵和外延、代码之间的交叉关系。第三,提出基于公共连接强度的快速聚类算法。利用社团成员之间的相似关系定义了社团连接强度,根据社团的公共连接强度定义了一种新的相似度计算方法,并应用该相似度计算方法提出一种凝聚聚类算法。在相似度计算中,综合考虑了社团内部和外部结构关系,因此能够避免其他算法在聚类初期容易出现的聚类错误。分别对拓扑和加权的实验数据进行聚类,实验结果证明了所提算法比其他算法更为有效。本文应用该算法对申请书进行聚类分析,形成了项目类,并对项目类和学科代码之间的关系进行了分析。本文在理论方法研究的基础上,对国家自然科学基金委员会的基金管理工作进行了应用研究,分析了我国基础科学研究的整体发展状况和发展规律、各个学科领域的研究状况及其关系等,为制定发展规划、发展战略、学科代码体系调整以及项目管理提供决策支持。