论文摘要
在基础研究的科研项目管理中,项目的相似性分析是一个基本的管理问题,依据相似性可以对项目进行分类,避免重复申报、重复立项,还可以为相似项目的评审选择合适的同行专家。项目的相似性分析一般是根据项目建议书的标题、摘要和关键词并结合项目管理人员的经验进行。但是由于一方面项目数量逐年快速增加,另一方面基础研究具有创新性、不确定性、学科交叉融合及新观点、新概念和新的知识点不断涌现等特点,科研项目管理人员很难根据基础研究项目的真正内涵进行相似性分析,从而给管理工作带来了极大的挑战。因此,从项目的知识内涵中进行相似性分析就成为现实的需求,这就需要对项目进行知识挖掘,并从知识管理的角度探讨项目管理问题。 科研项目建议书是由自然语言撰写的文本,特别是我国基础研究的建议书绝大部分是中文文本。因此对项目进行知识挖掘就转变为对项目建议书的文本挖掘。本文针对基础研究项目建设书的特点,研究了文本挖掘中的基本方法。本文的主要工作如下: 1.提出了符合中文科研项目文本特点的长度优先的无词典切分思路。与英文相比,文本切分是中文文本挖掘中的基本问题。科研项目文本中包含大量的语义不可分割的专业术语,并且不断涌现新术语,特别是基础研究项目的中文文本更是如此。现有的文本切分方法不适合于解决基础研究项目的文本切分问题,因此,本文提出了长度优先的无词典切分思路。 2.提出了中文科研项目文本的切分方法。依据上述的切分思路,提出了科研项目文本的三种切分方法:正向串频最大匹配法、逆向串频最大匹配法和双向串频最大匹配法,实验结果表明双向串频最大匹配法可以达到更好的切分精度。结合统计学习与规则筛选,这几种方法可以切分出专指语义串、短语和词。给出了专指语义串的定义,并从系统整体性和语义优先性的角度对其表示科研项目建议书内容的合理性进行了分析。上述方法既可以解决中文基础研究项目建议书文本的切分问题,又可以应用于一般文本的切分。 3.提出了科研项目文本的层次特征项获取和建模方法。针对科研项目的特征项之间在语义上具有层次性的特点,在文本切分结果的基础上,提出了基于迭代学习的层次特征项获取方法。通过迭代学习不仅可以获取切分结果中包含的层次特征项,而且可以获取切分结果中所不包含的层次特征项,从而更全面地表示文本。在层次特征项的基础上,采用网络作为语义层次结构关系的表示工具,从而实现科研项目文本建模。与通常的向量空间模型相比,该模型既可以表示特征项信息,又可以表示特征项之间的语义关系。该模型对单个文本的表示、领域文本的表示及本体等的自动构建具有重要意义。
论文目录
相关论文文献
- [1].中文网络评论的情感特征项选择研究[J]. 信息系统学报 2012(01)
- [2].应用特征项分布信息的信息增益改进方法研究[J]. 山东大学学报(理学版) 2009(11)
- [3].一种带有显著特征项的模糊聚类算法[J]. 河南大学学报(自然科学版) 2011(02)
- [4].基于特征项权重自动分解的文本聚类[J]. 计算机工程 2011(11)
- [5].基于位置的特征项权重算法[J]. 中国新技术新产品 2011(14)
- [6].基于特征项聚合的古典诗歌分类模型[J]. 东华大学学报(自然科学版) 2014(05)
- [7].基于科技论文多特征项共现突发强度分析方法的算法实现与可视化图谱研究[J]. 图书情报工作 2015(24)
- [8].本体视图特征项提取算法及其在智能检索中的应用[J]. 图书情报工作 2010(10)
- [9].基于特征项分布的信息熵及特征动态加权概念漂移检测模型[J]. 电子学报 2015(07)
- [10].基于特征项区分度的加权朴素贝叶斯邮件过滤方法[J]. 计算机应用与软件 2015(10)
- [11].基于语义特征项列表的工艺知识推送技术研究[J]. 现代制造工程 2016(09)
- [12].基于科技文献多特征项共现的图谱可视化方法研究[J]. 中国科技资源导刊 2017(01)
- [13].基于特征项扩展的中文文本分类方法[J]. 应用科技 2010(03)
- [14].基于Spark和改进的TF-IDF算法的用户特征分析[J]. 软件工程 2016(10)
- [15].基于本体视图特征项抽取方法研究[J]. 计算机应用研究 2010(01)
- [16].基于特征项的文献共现网络在学术信息检索中的应用[J]. 图书情报工作 2014(15)
- [17].文本分类中一种改进的特征项权重计算方法[J]. 福建师范大学学报(自然科学版) 2020(02)
- [18].一种基于词长的TFIDF特征项权值计算方法[J]. 电脑知识与技术 2011(32)
- [19].领域概念术语提取中特征项自动抽取方法[J]. 计算机工程与设计 2012(08)
- [20].科研机构的科研状况研究——基于论文特征项共现分析方法[J]. 国家图书馆学刊 2011(03)
- [21].基于特征相关的改进加权朴素贝叶斯分类算法[J]. 厦门大学学报(自然科学版) 2012(04)
- [22].基于音频特征的乐器分类研究[J]. 软件导刊 2018(06)
- [23].一种结合文档频率和互信息的特征项提取方法[J]. 电脑知识与技术 2012(11)
- [24].Web文本分类中特征项权重的研究[J]. 科技和产业 2010(02)
- [25].基于IPA评价的上海世博会服务特征感知实证研究[J]. 中国市场 2010(49)
- [26].基于LSI/SVD的文本分类方法研究[J]. 微计算机信息 2009(30)
- [27].Web文本分类技术研究[J]. 福建电脑 2008(09)
- [28].结合CHI统计和改进TF-IDF算法的微博特征项提取[J]. 电子世界 2016(22)
- [29].基于DOM的信息检索研究[J]. 信息网络安全 2014(05)
- [30].改进TF-IDF算法的文本特征项权值计算方法[J]. 图书情报工作 2013(03)
标签:科研项目管理论文; 文本挖掘论文; 科研项目文本切分论文; 科研项目文本建模论文; 新术语发现论文;