科研项目管理中的文本挖掘方法研究及应用

科研项目管理中的文本挖掘方法研究及应用

论文摘要

在基础研究的科研项目管理中,项目的相似性分析是一个基本的管理问题,依据相似性可以对项目进行分类,避免重复申报、重复立项,还可以为相似项目的评审选择合适的同行专家。项目的相似性分析一般是根据项目建议书的标题、摘要和关键词并结合项目管理人员的经验进行。但是由于一方面项目数量逐年快速增加,另一方面基础研究具有创新性、不确定性、学科交叉融合及新观点、新概念和新的知识点不断涌现等特点,科研项目管理人员很难根据基础研究项目的真正内涵进行相似性分析,从而给管理工作带来了极大的挑战。因此,从项目的知识内涵中进行相似性分析就成为现实的需求,这就需要对项目进行知识挖掘,并从知识管理的角度探讨项目管理问题。 科研项目建议书是由自然语言撰写的文本,特别是我国基础研究的建议书绝大部分是中文文本。因此对项目进行知识挖掘就转变为对项目建议书的文本挖掘。本文针对基础研究项目建设书的特点,研究了文本挖掘中的基本方法。本文的主要工作如下: 1.提出了符合中文科研项目文本特点的长度优先的无词典切分思路。与英文相比,文本切分是中文文本挖掘中的基本问题。科研项目文本中包含大量的语义不可分割的专业术语,并且不断涌现新术语,特别是基础研究项目的中文文本更是如此。现有的文本切分方法不适合于解决基础研究项目的文本切分问题,因此,本文提出了长度优先的无词典切分思路。 2.提出了中文科研项目文本的切分方法。依据上述的切分思路,提出了科研项目文本的三种切分方法:正向串频最大匹配法、逆向串频最大匹配法和双向串频最大匹配法,实验结果表明双向串频最大匹配法可以达到更好的切分精度。结合统计学习与规则筛选,这几种方法可以切分出专指语义串、短语和词。给出了专指语义串的定义,并从系统整体性和语义优先性的角度对其表示科研项目建议书内容的合理性进行了分析。上述方法既可以解决中文基础研究项目建议书文本的切分问题,又可以应用于一般文本的切分。 3.提出了科研项目文本的层次特征项获取和建模方法。针对科研项目的特征项之间在语义上具有层次性的特点,在文本切分结果的基础上,提出了基于迭代学习的层次特征项获取方法。通过迭代学习不仅可以获取切分结果中包含的层次特征项,而且可以获取切分结果中所不包含的层次特征项,从而更全面地表示文本。在层次特征项的基础上,采用网络作为语义层次结构关系的表示工具,从而实现科研项目文本建模。与通常的向量空间模型相比,该模型既可以表示特征项信息,又可以表示特征项之间的语义关系。该模型对单个文本的表示、领域文本的表示及本体等的自动构建具有重要意义。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 问题提出及研究意义
  • 1.2 科研项目管理综述
  • 1.2.1 科研项目管理与项目管理
  • 1.2.2 科研项目管理的特点
  • 1.2.3 科研项目管理中的知识管理
  • 1.3 文本挖掘综述
  • 1.3.1 数据挖掘
  • 1.3.2 文本挖掘的定义
  • 1.3.3 文本挖掘过程
  • 1.3.4 文本挖掘的实现方法
  • 1.3.5 国内外研究进展
  • 1.4 科研项目管理中文本挖掘的引入
  • 1.4.1 文本挖掘对知识管理的作用
  • 1.4.2 文本挖掘对科研项目管理的适用性
  • 1.4.3 中文文本挖掘的特殊性
  • 1.5 主要研究内容与结构安排
  • 1.5.1 主要研究内容
  • 1.5.2 结构安排
  • 2 中文科研项目文本的切分方法研究
  • 2.1 中文科研项目文本切分概述
  • 2.1.1 中文科研项目文本切分的必要性
  • 2.1.2 中文文本切分中的问题
  • 2.1.3 中文文本切分的评价标准
  • 2.1.4 几种典型的自动切分系统介绍
  • 2.1.5 中文文本切分方法分类
  • 2.2 长度优先的无词典切分思路的提出
  • 2.2.1 中文科研项目文本的特点
  • 2.2.2 现有切分方法应用于科研项目文本的局限
  • 2.2.3 长度优先的无词典切分思路
  • 2.3 科研项目文本切分的 MMFS、RMMFS和 BMMFS方法
  • 2.3.1 科研项目文本切分的正向串频最大匹配法
  • 2.3.2 科研项目文本切分的逆向串频最大匹配法
  • 2.3.3 科研项目文本切分的双向串频最大匹配法
  • 2.3.4 科研项目文本切分的MMFS、RMMFS和 BMMFS方法的特点
  • 2.4 科研项目文本切分的规则筛选
  • 2.4.1 删除不合理的搭配规则
  • 2.4.2 规则筛选后的结果修正
  • 2.5 科研项目文本的切分实验结果及分析
  • 2.5.1 搭配规则及匹配方向对切分准确率的影响
  • 2.5.2 不同词频切分结果准确率分布
  • 2.5.3 双向匹配的切分结果数量与文本大小的关系
  • 2.5.4 切分时间与切分结果数量的关系
  • 2.5.5 切分时间与文本大小的关系
  • 2.5.6 正向、逆向匹配结果不同词的频率分布
  • 2.5.7 双向匹配时不正确词的频率分布
  • 2.6 专指语义串的系统整体性解释
  • 2.7 本章小结
  • 3 科研项目文本的层次特征项获取及建模
  • 3.1 引言
  • 3.2 基于迭代学习的科研项目文本层次特征项获取
  • 3.2.1 层次特征项获取的基本思想
  • 3.2.2 层次特征项获取的主要步骤
  • 3.3 科研项目文本的建模
  • 3.3.1 科研项目文本建模的依据
  • 3.3.2 科研项目文本建模的方法
  • 3.3.3 科研项目文本模型的特点
  • 3.3.4 科研项目文本模型关系矩阵的特点
  • 3.3.5 科研项目文本网络结构图的构建
  • 3.4 实验结果及分析
  • 3.4.1 基于迭代学习的科研项目文本层次特征项获取实验
  • 3.4.2 科研项目文本建模实验
  • 3.5 本章小结
  • 4 含字母词语的科研领域词表构建、新术语发现及词语分布特点研究
  • 4.1 引言
  • 4.2 相关工作概述
  • 4.2.1 科研领域词表构建的研究概述
  • 4.2.2 科研领域新术语自动发现的研究概述
  • 4.2.3 词语分布的研究概述
  • 4.3 含字母词语的科研领域词表构建及新术语发现
  • 4.3.1 基本思路
  • 4.3.2 含字母词语的科研领域术语抽取方法
  • 4.3.3 科研领域的词表构建和新术语发现
  • 4.4 实验及结果分析
  • 4.4.1 含字母词语的科研领域术语抽取实验及分析
  • 4.4.2 含字母词语的科研领域新术语发现实验及分析
  • 4.4.3 科研领域词语分布特点实验及分析
  • 4.5 本章小结
  • 5 基于文本挖掘的科研项目管理原型系统
  • 5.1 科研项目管理的背景
  • 5.2 基于文本挖掘的科研项目管理原型系统总体分析
  • 5.2.1 科研项目建模
  • 5.2.2 科研领域建模
  • 5.2.3 关联关系挖掘
  • 5.3 科研项目管理原型系统开发与运行实例
  • 5.3.1 科研项目管理原型系统设计与开发
  • 5.3.2 科研项目管理原型系统运行实例
  • 5.4 本章小结
  • 6 总结与展望
  • 6.1 主要工作总结
  • 6.2 下一步工作展望
  • 创新点摘要
  • 参考文献
  • 攻读博士学位期间发表和完成学术论文情况
  • 致谢
  • 大连理工大学学位论文版权使用授权书
  • 相关论文文献

    • [1].中文网络评论的情感特征项选择研究[J]. 信息系统学报 2012(01)
    • [2].应用特征项分布信息的信息增益改进方法研究[J]. 山东大学学报(理学版) 2009(11)
    • [3].一种带有显著特征项的模糊聚类算法[J]. 河南大学学报(自然科学版) 2011(02)
    • [4].基于特征项权重自动分解的文本聚类[J]. 计算机工程 2011(11)
    • [5].基于位置的特征项权重算法[J]. 中国新技术新产品 2011(14)
    • [6].基于特征项聚合的古典诗歌分类模型[J]. 东华大学学报(自然科学版) 2014(05)
    • [7].基于科技论文多特征项共现突发强度分析方法的算法实现与可视化图谱研究[J]. 图书情报工作 2015(24)
    • [8].本体视图特征项提取算法及其在智能检索中的应用[J]. 图书情报工作 2010(10)
    • [9].基于特征项分布的信息熵及特征动态加权概念漂移检测模型[J]. 电子学报 2015(07)
    • [10].基于特征项区分度的加权朴素贝叶斯邮件过滤方法[J]. 计算机应用与软件 2015(10)
    • [11].基于语义特征项列表的工艺知识推送技术研究[J]. 现代制造工程 2016(09)
    • [12].基于科技文献多特征项共现的图谱可视化方法研究[J]. 中国科技资源导刊 2017(01)
    • [13].基于特征项扩展的中文文本分类方法[J]. 应用科技 2010(03)
    • [14].基于Spark和改进的TF-IDF算法的用户特征分析[J]. 软件工程 2016(10)
    • [15].基于本体视图特征项抽取方法研究[J]. 计算机应用研究 2010(01)
    • [16].基于特征项的文献共现网络在学术信息检索中的应用[J]. 图书情报工作 2014(15)
    • [17].文本分类中一种改进的特征项权重计算方法[J]. 福建师范大学学报(自然科学版) 2020(02)
    • [18].一种基于词长的TFIDF特征项权值计算方法[J]. 电脑知识与技术 2011(32)
    • [19].领域概念术语提取中特征项自动抽取方法[J]. 计算机工程与设计 2012(08)
    • [20].科研机构的科研状况研究——基于论文特征项共现分析方法[J]. 国家图书馆学刊 2011(03)
    • [21].基于特征相关的改进加权朴素贝叶斯分类算法[J]. 厦门大学学报(自然科学版) 2012(04)
    • [22].基于音频特征的乐器分类研究[J]. 软件导刊 2018(06)
    • [23].一种结合文档频率和互信息的特征项提取方法[J]. 电脑知识与技术 2012(11)
    • [24].Web文本分类中特征项权重的研究[J]. 科技和产业 2010(02)
    • [25].基于IPA评价的上海世博会服务特征感知实证研究[J]. 中国市场 2010(49)
    • [26].基于LSI/SVD的文本分类方法研究[J]. 微计算机信息 2009(30)
    • [27].Web文本分类技术研究[J]. 福建电脑 2008(09)
    • [28].结合CHI统计和改进TF-IDF算法的微博特征项提取[J]. 电子世界 2016(22)
    • [29].基于DOM的信息检索研究[J]. 信息网络安全 2014(05)
    • [30].改进TF-IDF算法的文本特征项权值计算方法[J]. 图书情报工作 2013(03)

    标签:;  ;  ;  ;  ;  

    科研项目管理中的文本挖掘方法研究及应用
    下载Doc文档

    猜你喜欢