术语自动抽取技术研究

术语自动抽取技术研究

论文摘要

随着互联网的飞速发展,术语在各个领域层出不穷。术语自动提取日益受到人们的关注,已经成为自然语言处理的一项重要任务,可以应用到本体构建、专业搜索、文本分类等各个领域。因此,术语抽取研究是信息处理领域的基础性课题。术语是为有效表达领域知识而产生的完整的语言单位,因此需要计算其单元度。本文重点研究了单元度的计算方法。计算词语的单元度有很多种统计模型,我们在分析各种模型优缺点的基础上,综合了几个模型的优点,提出一种新的术语抽取方法,实现优势互补,从而提高了准确率和召回率。本文的研究工作主要包括以下几个方面:第一,详细分析了术语在文本中的使用特点,并对已有的各种术语抽取方法及其各自的优缺点进行了分析和比较。第二,为了能有效抽取低频词汇,选用了似然比方法。但该方法抽取准确率偏低。为了解决这个问题,本文提出将似然比的抽取结果用C-value进行处理。两者相结合,在保证似然比方法高召回率的前提下,也提高了抽取的准确率。实验证明,这两种方法的结合是有效的。第三,在术语提取的特征运用上,既考虑了术语的内部结合紧密特性,又考虑了术语的边界自由特性,提出将改进似然比方法抽取结果与信息熵抽取结果求并集的策略。实验证明,在术语提取中集成多方面信息,可以取得更好的效果。第四,所用的方法完全基于统计,与语言无关,所以理论上可以对各种语言的语料进行抽取。实验语料为中英文混合语料,实验证明,该方法能有效处理中英文混合语料。本文设计并实现的术语自动抽取系统,只需给出领域语料,便可从给定的语料中抽取出尽可能多的专业术语。整个过程无需分词及词性标注,不局限于某一个领域,不需要语料库进行训练,简单实用。我们选取“百度百科”技术标签下大约11M的语料进行抽取,前4000个候选串的准确率约70.8%。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景及意义
  • 1.2 术语相关概念
  • 1.2.1 术语与术语学
  • 1.2.2 术语的特征
  • 1.3 术语自动提取研究现状
  • 1.3.1 基于规则的方法(Linguistically-Oriented Methods)
  • 1.3.2 基于统计的方法(Statistic-Oriented Methods)
  • 1.3.3 统计与规则相结合的方法(Hybrid Methods)
  • 1.4 本文的内容安排
  • 第2章 单元度的计算
  • 2.1 术语特征计算
  • 2.2 内部结合紧密度的计算
  • 2.2.1 频率
  • 2.2.2 互信息
  • 2.2.3 卡方检验
  • 2.3 边界自由度的计算
  • 2.3.1 信息熵
  • 2.3.2 接续指数
  • 2.4 本研究中单元度的计算
  • 2.5 本章小结
  • 第3章 基于信息熵的术语抽取
  • 3.1 基于信息熵的字串边界自由度的计算
  • 3.1.1 信息熵方法介绍
  • 3.1.2 信息熵在术语提取中的作用和不足
  • 3.2 算法描述
  • 3.3 实验与结果分析
  • 3.3.1 实验结果1 及分析
  • 3.3.2 实验结果2 及分析
  • 3.3.3 实验结果3 及分析
  • 3.4 本章小结
  • 第4章 基于似然比与C-value相结合的术语抽取
  • 4.1 基于似然比的字串内部结合强度计算
  • 4.1.1 似然比方法介绍
  • 4.1.2 似然比在术语提取中的作用与不足
  • 4.2 似然比与C-value方法结合
  • 4.2.1 基本定义
  • 4.2.2 C-value方法介绍
  • 4.2.3 C-value在本研究中的应用
  • 4.3 算法描述
  • 4.4 实验结果与分析
  • 4.4.1 对比实验1
  • 4.4.2 对比实验2
  • 4.5 本章小结
  • 第5章 术语自动抽取
  • 5.1 实验资源
  • 5.1.1 实验语料
  • 5.1.2 已有资源
  • 5.1.3 实验的硬件环境
  • 5.2 术语自动抽取系统
  • 5.2.1 语料获取及预处理
  • 5.2.2 串频统计
  • 5.2.3 术语抽取
  • 5.3 实验结果与数据分析
  • 5.3.1 测试规则
  • 5.3.2 实验结果及评价
  • 5.4 系统分析与讨论
  • 5.4.1 现有系统的缺点
  • 5.4.2 解决方案
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].微博内容自动抽取方法研究[J]. 辽宁工业大学学报(自然科学版) 2017(01)
    • [2].基于句内注意力机制的答案自动抽取方法[J]. 智能计算机与应用 2017(05)
    • [3].术语自动抽取方法研究综述[J]. 计算机科学 2015(08)
    • [4].基于内容分析的网络新闻中社会网络自动抽取[J]. 科研信息化技术与应用 2016(03)
    • [5].2001—2008年国内元数据自动抽取研究综述[J]. 科技情报开发与经济 2009(23)
    • [6].中文领域术语自动抽取方法进展研究[J]. 电脑知识与技术 2014(28)
    • [7].面向科技领域的术语自动抽取模型[J]. 系统工程理论与实践 2013(01)
    • [8].维吾尔语短语自动抽取研究进展[J]. 计算机科学与探索 2015(12)
    • [9].融入形态特征的英语多词术语自动抽取研究[J]. 外语电化教学 2013(02)
    • [10].特定领域概念间关系自动抽取方法[J]. 北京邮电大学学报 2013(05)
    • [11].面向情报学课程设置的数据科学技能素养自动抽取及分析研究[J]. 情报理论与实践 2018(12)
    • [12].一种混合策略的领域术语自动抽取方法[J]. 电子制作 2015(08)
    • [13].文本元数据自动抽取算法的研究[J]. 计算机应用与软件 2011(12)
    • [14].基于深度学习的数据科学招聘实体自动抽取及分析研究[J]. 图书情报工作 2018(13)
    • [15].一种面向属性的论坛自动抽取方法[J]. 科学技术与工程 2009(24)
    • [16].基于深度学习的食品安全事件实体自动抽取模型研究[J]. 信息与电脑(理论版) 2018(23)
    • [17].面向源代码软件设计模式自动抽取技术的研究[J]. 电子世界 2013(24)
    • [18].基于互信息与词语共现的领域术语自动抽取方法研究[J]. 重庆邮电大学学报(自然科学版) 2013(05)
    • [19].语义关系自动抽取方法[J]. 山西大学学报(自然科学版) 2015(04)
    • [20].电商网页中商品规格信息自动抽取方法研究[J]. 计算机工程与应用 2017(24)
    • [21].改进的中文静态网页新闻正文自动抽取算法[J]. 东莞理工学院学报 2018(05)
    • [22].期刊论文元数据自动抽取系统的设计与实现[J]. 计算机光盘软件与应用 2014(21)
    • [23].基于本体实例信息的深度网表单属性自动抽取[J]. 小型微型计算机系统 2009(05)
    • [24].基于字同现频率的关键词自动抽取[J]. 北京信息科技大学学报(自然科学版) 2011(06)
    • [25].术语关系自动抽取方法研究[J]. 计算机科学 2010(02)
    • [26].科技文献元数据自动抽取研究述评[J]. 计算机系统应用 2013(03)
    • [27].基于特征及规则模式的学位论文元数据信息自动抽取研究[J]. 农业图书情报学刊 2015(02)
    • [28].基于统计方法的教育术语特征分析研究[J]. 计算机光盘软件与应用 2014(24)
    • [29].基于Web内容的一种数据自动抽取方法[J]. 计算机技术与发展 2012(05)
    • [30].一种自动抽取Web信息方法的设计与实现[J]. 计算机与现代化 2009(01)

    标签:;  ;  ;  

    术语自动抽取技术研究
    下载Doc文档

    猜你喜欢