术语自动抽取技术的研究与应用

术语自动抽取技术的研究与应用

论文摘要

术语是通过语言或文字来表达或限定专业概念的约定性语言符号,术语集中体现和负载了一个学科领域的核心知识。术语自动抽取(Automatic Term Extraction: ATE)是自然语言处理中的一项重要课题,在机器翻译、信息检索、文本分类和文本摘要等领域具有广泛的应用。本文针对汉语专利语料翻译过程中,所存在大量术语影响翻译质量的问题,开展了中文专利语料中术语自动抽取技术的研究。论文在分析专利语料中术语的构词特点的基础上,实现了一个基于规则的术语自动抽取系统;使用目前命名体识别效果较好的最大熵模型和条件随机场模型进行术语自动抽取,将术语抽取问题转化为一个术语识别问题;分别进行基于词的最大熵模型和条件随机场模型的术语自动抽取实验,实验结果表明条件随机场模型优于最大熵模型;在基于词的条件随机场模型基础上,提出基于字的条件随机场模型术语自动抽取方法,该方法有效地避免了分词错误,有效地提高了系统性能;针对抽取结果采用规则进行后处理,过滤掉部分非术语,实现了一个基于字的条件随机场模型和规则相结合的术语自动抽取系统。本文所开发的系统获得了较好的实验效果,使用该系统对专利语料进行抽取,建立一个术语库,并应用于机器翻译中,有效地提高了翻译中术语翻译的准确性。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 选题的背景和意义
  • 1.2 国内外术语自动抽取研究现状
  • 1.2.1 国外术语抽取技术的研究
  • 1.2.2 国内术语抽取技术的研究
  • 1.3 本文的主要工作
  • 1.4 本文的组织结构
  • 第2章 术语自动抽取概述
  • 2.1 术语的特点和分类
  • 2.1.1 术语的特点
  • 2.1.2 术语的分类
  • 2.2 基于规则的术语抽取方法
  • 2.3 基于统计的术语抽取方法
  • 2.4 基于混合策略的术语抽取方法
  • 2.5 机器学习的理论介绍
  • 2.5.1 生成模型和判别模型
  • 2.5.2 最大熵模型的介绍
  • 2.5.3 条件随机场模型的介绍
  • 第3章 基于规则的术语自动抽取技术研究
  • 3.1 专利语料分析
  • 3.1.1 本文术语的界定
  • 3.1.2 专利语料中术语的特点和识别的难点分析
  • 3.2 基于规则的术语自动抽取的系统框架
  • 3.3 系统各模块的介绍
  • 3.3.1 预处理
  • 3.3.2 停用词库的建立
  • 3.3.3 词语的角色标注
  • 3.3.4 后处理
  • 3.4 实验结果
  • 3.5 基于统计的术语抽取实验
  • 3.6 小结
  • 第4章 基于机器学习的术语自动抽取方法研究
  • 4.1 基于最大熵的术语自动抽取研究
  • 4.1.1 预处理
  • 4.1.2 特征选择
  • 4.1.3 测试及实验结果
  • 4.2 基于词的条件随机场的术语自动抽取研究
  • 4.2.1 预处理
  • 4.2.2 特征模板选取
  • 4.2.3 特征的选择
  • 4.2.4 测试及结果
  • 4.2.5 扩展BIO 标注集实验
  • 4.2.6 后处理模块
  • 4.3 基于字的条件随机场的术语自动抽取研究
  • 4.3.1 基于词的模型中存在问题
  • 4.3.2 基于字的术语抽取实验
  • 4.3.3 加入字性的实验
  • 4.4 小结
  • 第5章 系统实现和应用
  • 5.1 系统框架
  • 5.2 实验结果
  • 5.2.1 基于字的模型与规则相结合的实验结果
  • 5.2.2 实验结果比较
  • 5.3 结果分析
  • 5.4 术语自动抽取的应用
  • 5.5 小结
  • 结论
  • 附录I 部分处理规则列表
  • 附录II 部分术语词性规则
  • 附录Ⅲ 术语标注界面
  • 附录Ⅳ 术语抽取界面
  • 参考文献
  • 致谢
  • 攻读硕士期间发表(含录用)的学术论文
  • 相关论文文献

    • [1].微博内容自动抽取方法研究[J]. 辽宁工业大学学报(自然科学版) 2017(01)
    • [2].基于句内注意力机制的答案自动抽取方法[J]. 智能计算机与应用 2017(05)
    • [3].术语自动抽取方法研究综述[J]. 计算机科学 2015(08)
    • [4].基于内容分析的网络新闻中社会网络自动抽取[J]. 科研信息化技术与应用 2016(03)
    • [5].2001—2008年国内元数据自动抽取研究综述[J]. 科技情报开发与经济 2009(23)
    • [6].中文领域术语自动抽取方法进展研究[J]. 电脑知识与技术 2014(28)
    • [7].面向科技领域的术语自动抽取模型[J]. 系统工程理论与实践 2013(01)
    • [8].维吾尔语短语自动抽取研究进展[J]. 计算机科学与探索 2015(12)
    • [9].融入形态特征的英语多词术语自动抽取研究[J]. 外语电化教学 2013(02)
    • [10].特定领域概念间关系自动抽取方法[J]. 北京邮电大学学报 2013(05)
    • [11].面向情报学课程设置的数据科学技能素养自动抽取及分析研究[J]. 情报理论与实践 2018(12)
    • [12].一种混合策略的领域术语自动抽取方法[J]. 电子制作 2015(08)
    • [13].文本元数据自动抽取算法的研究[J]. 计算机应用与软件 2011(12)
    • [14].基于深度学习的数据科学招聘实体自动抽取及分析研究[J]. 图书情报工作 2018(13)
    • [15].一种面向属性的论坛自动抽取方法[J]. 科学技术与工程 2009(24)
    • [16].基于深度学习的食品安全事件实体自动抽取模型研究[J]. 信息与电脑(理论版) 2018(23)
    • [17].面向源代码软件设计模式自动抽取技术的研究[J]. 电子世界 2013(24)
    • [18].基于互信息与词语共现的领域术语自动抽取方法研究[J]. 重庆邮电大学学报(自然科学版) 2013(05)
    • [19].语义关系自动抽取方法[J]. 山西大学学报(自然科学版) 2015(04)
    • [20].电商网页中商品规格信息自动抽取方法研究[J]. 计算机工程与应用 2017(24)
    • [21].改进的中文静态网页新闻正文自动抽取算法[J]. 东莞理工学院学报 2018(05)
    • [22].期刊论文元数据自动抽取系统的设计与实现[J]. 计算机光盘软件与应用 2014(21)
    • [23].基于本体实例信息的深度网表单属性自动抽取[J]. 小型微型计算机系统 2009(05)
    • [24].基于字同现频率的关键词自动抽取[J]. 北京信息科技大学学报(自然科学版) 2011(06)
    • [25].术语关系自动抽取方法研究[J]. 计算机科学 2010(02)
    • [26].科技文献元数据自动抽取研究述评[J]. 计算机系统应用 2013(03)
    • [27].基于特征及规则模式的学位论文元数据信息自动抽取研究[J]. 农业图书情报学刊 2015(02)
    • [28].基于统计方法的教育术语特征分析研究[J]. 计算机光盘软件与应用 2014(24)
    • [29].基于Web内容的一种数据自动抽取方法[J]. 计算机技术与发展 2012(05)
    • [30].一种自动抽取Web信息方法的设计与实现[J]. 计算机与现代化 2009(01)

    标签:;  ;  ;  ;  

    术语自动抽取技术的研究与应用
    下载Doc文档

    猜你喜欢