论文摘要
知识库是自然语言处理系统的基础,为系统“理解”自然语言并顺利完成任务提供有力的知识保障。本文针对领域知识的获取进行了研究和探索,提出了一些新的处理技术和模型。主要创新点包括:1.针对领域知识源获取过程中的网络冗余信息问题,提出了一种基于关键词序列的网络文本信息去重算法——KSM。以全信息理论为依据,使用文档的关键词序列来描述其结构特征和内涵特征,通过比较主题相似文档的关键词序列的重叠度,判断是否存在信息冗余现象。在各类隐式重复检测实验中,KSM算法的总体准确率和召回率分别达到了99.2%和97.7%,显示了较好的性能。2.针对低频术语抽取召回率较低的问题,提出了一种基于语言认知理论的中文术语自动抽取算法,借助科技论文的话语标记,在C-value测度和SCPf测度中引入候选术语的加权词频因子,提出了一种MC-SCP测度,用于候选术语的单元性和术语性的综合评价。在车牌识别领域的术语抽取实验中,基于MC-SCP测度的算法召回率和准确率分别是96.5%和77.8%,低频术语的召回率和准确率则分别是96.2%和79.3%;在保证术语抽取整体性能的同时,显著改善了低频术语的抽取效果。3.针对术语关系类型的多样化问题,提出了一种基于多策略的术语关系自动获取模型。根据科技论文的语言学特点,综合术语的内部特征和外部特征,从多个层面发现和获取术语间的各种关系,包括:基于规则的术语同义关系获取、基于结构相似性的术语层级关系获取、基于完全加权关联规则的术语非层级关系获取、基于粒子群的术语聚类等。在术语非层级关系获取中,提出了一种基于非频繁项集多重剪枝检测的完全加权关联规则挖掘算法——AWARM-MPIS,用于完全加权关联规则的频繁项集生成和剪枝,取得了良好的效果;在术语分组关系获取中,提出了一种基于粒子群的术语聚类算法,使用术语的结构相似性(内部特征)和关联度(外部特征)来评价术语的语义相似性。实验结果表明,其平均运行时间与迭代次数比K-Means提高了2个级别。4.针对多领域科技论文的大量出现与编辑人员专业知识有限的问题,提出了一个领域知识制导的科技论文初审辅助系统模型。根据科技期刊的出版要求和科技论文的特点,结合编辑人员的工作经验,将编辑初审细化为4个方面的评判,以此为依据开发了一个原型系统,并使用《计算机工程与应用》和《计算机科学与探索》的2365篇投稿论文为语料进行了性能测试。实验结果表明,该系统可辅助编辑人员淘汰35%左右的低质量稿件,提高了编辑初审的效率。
论文目录
摘要ABSTRACT第一章 绪论1.1.知识库的相关概念1.1.1.知识1.1.2.知识库1.2.知识库构建的国内外研究现状1.2.1.知识获取1.3.论文研究背景和意义1.4.论文研究工作概述1.5.论文组织结构第二章 领域知识获取的相关工作2.1.领域知识的相关概念2.1.1.领域知识2.1.2.概念2.1.3.术语2.2.术语自动抽取的研究现状2.2.1.基于规则的方法2.2.2.基于统计的方法2.2.3.混合方法2.3.术语关系获取的研究现状2.3.1.基于MRD的方法2.3.2.基于模板匹配的方法2.3.3.基于聚类的方法2.3.4.基于关联规则的方法2.3.5.混合方法2.4.本章小结第三章 基于关键词序列的网络文本信息去重算法3.1.引言3.2.相关工作3.3.基于关键词序列的网络文本信息去重算法3.3.1.文本内容解析3.3.2.文本信息比较3.4.算法评测3.4.1.文本信息去重算法的评价指标3.4.2.测试语料库的构造3.4.3.KSM算法的参数学习3.4.4.对比实验3.5.本章小结第四章 基于语言认知理论的中文术语自动抽取4.1.引言4.2.科技论文的语言学特征4.3.基于语言认知理论的中文术语抽取4.3.1.语言学处理4.3.2.统计处理4.3.3.算法描述4.4.算法性能评价4.4.1.测试语料库4.4.2.实验结果4.5.本章小结第五章 基于多策略的术语关系自动获取5.1.引言5.2.基于多策略的术语关系自动获取模型5.3.基于规则的术语同义关系的获取5.4.基于结构相似性的术语层级关系获取5.4.1.相关工作5.4.2.基于同义替换的术语结构相似性评价5.4.3.实验结果5.5.基于完全加权关联规则的术语非层级关系获取5.5.1.完全加权关联规则挖掘的相关概念5.5.2.基于非频繁项集多重剪枝检测的完全加权关联规则挖掘算法5.5.3.基于篇章结构树语义扩展的术语效用集合5.5.4.实验结果5.6.基于粒子群的术语聚类5.6.1.术语聚类的数学模型5.6.2.基于K-MEANS的术语聚类算法5.6.3.粒子群优化算法5.6.4.基于粒子群的术语聚类算法5.6.5.算法性能评价5.7.本章小结第六章 领域知识在科技论文初审辅助系统中的应用6.1.引言6.2.相关工作6.3.科技论文编辑初审的主要过程6.4.领域知识制导的科技论文初审辅助系统模型6.4.1.格式审查器6.4.2.参考文献近期率评价器6.4.3.摘要准确性评价器6.4.4.正文内容剽窃检测器6.4.5.综合评价器6.5.实验结果与分析6.6.本章小结第七章 结束语7.1.研究工作小结7.2.今后的研究方向参考文献攻读博士学位期间发表的论文致谢
相关论文文献
标签:术语抽取论文; 术语关系获取论文; 文本信息去重论文; 完全加权关联规则挖掘论文; 科技论文初审辅助系统论文;