领域术语自动抽取及关系分类研究

领域术语自动抽取及关系分类研究

论文摘要

随着信息技术和各专业领域日新月异的发展,旧的术语不断消亡,新的术语不断涌现,术语的变化在一定程度上反映了一个学科领域的发展变化,如何正确的识别它们变得越来越重要。领域词汇间的关系分类有助于挖掘领域更深层的信息。本文针对中文和领域特点,围绕领域语料处理、候选词抽取、领域术语识别、领域词汇关系分类等问题进行了研究和探讨。主要取得了以下几个较有特色的成果:(1)结合中文特点和领域特征,提出了一种新的领域语料预处理方法。采用分词工具和粗切分相结合的方式对领域语料进行切分,为领域术语的抽取和识别提供了更有效的资源。(2)运用互信息和对数似然比相结合的方法抽取领域术语候选词。在抽取领域候选词时,采用互信息和对数似然比相结合的方法计算字串间结合强度,保证该字串是一个合法的语言单位,构建出候选词集。这两种方法可以优势互补,很好地解决了数据稀疏问题对抽取结果准确性影响较大的问题,实验证明该方法具有很好的效果。(3)运用基于种子词的领域术语识别方法。首先人工选定领域种子词,然后基于已选种子词,结合T评价方法识别候选词集中的领域术语。实验表明该方法准确率较高。(4)基于支持向量机(SVM)的领域词汇关系分类方法。该方法主要抽取两个领域词汇之间的上下文特征进行关系分类,实验表明基于SVM的领域词汇关系分类方法是可行的。(5)在上述工作的基础上,搭建了云南旅游领域术语识别及关系分类原型系统。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 绪论
  • 1.1 课题研究背景及意义
  • 1.2 研究现状
  • 1.2.1 国外研究现状
  • 1.2.2 国内研究现状
  • 1.3 问题的提出
  • 1.4 本文研究的内容
  • 1.5 论文的组织
  • 第二章 术语的基本知识
  • 2.1 引言
  • 2.2 术语的概念
  • 2.3 术语的特征
  • 2.3.1 术语的结构特征
  • 2.3.2 术语的领域特征
  • 2.3.3 术语的内部特征与外部特征
  • 2.4 本章小结
  • 第三章 术语候选词抽取
  • 3.1 引言
  • 3.2 相关研究
  • 3.3 术语候选词抽取
  • 3.3.1 语料预处理
  • 3.3.2 候选词抽取
  • 3.4 云南旅游术语候选词抽取实验验证
  • 3.6 本章小结
  • 第四章 领域术语识别
  • 4.1 引言
  • 4.2 相关研究
  • 4.3 领域术语识别
  • 4.3.1 种子词的选择
  • 4.3.2 基于种子词的领域术语识别方法
  • 4.4 云南旅游领域术语识别方法验证
  • 4.5 本章小结
  • 第五章 关系分类的研究
  • 5.1 引言
  • 5.2 相关研究
  • 5.3 领域词汇关系分类
  • 5.3.1 分类特征选取
  • 5.3.2 分类模型的实现
  • 5.4 云南旅游关系分类方法验证
  • 5.5 本章小结
  • 第六章 云南旅游领域术语识别及关系分类原型系统的实现
  • 6.1 引言
  • 6.2 系统的整体框架
  • 6.3 领域术语候选词集构建
  • 6.4 领域术语识别
  • 6.5 领域词汇关系分类
  • 6.6 系统分析
  • 6.7 本章小结
  • 第七章 结论及下一步的工作
  • 7.1 结论
  • 7.2 下一步的工作
  • 致谢
  • 参考文献
  • 附录A 攻读学位期间发表论文及参与项目
  • 附录B 候选词抽取实验语料中所含的42个术语
  • 附录C 领域术语识别结果
  • 相关论文文献

    • [1].微博内容自动抽取方法研究[J]. 辽宁工业大学学报(自然科学版) 2017(01)
    • [2].基于句内注意力机制的答案自动抽取方法[J]. 智能计算机与应用 2017(05)
    • [3].术语自动抽取方法研究综述[J]. 计算机科学 2015(08)
    • [4].基于内容分析的网络新闻中社会网络自动抽取[J]. 科研信息化技术与应用 2016(03)
    • [5].2001—2008年国内元数据自动抽取研究综述[J]. 科技情报开发与经济 2009(23)
    • [6].中文领域术语自动抽取方法进展研究[J]. 电脑知识与技术 2014(28)
    • [7].面向科技领域的术语自动抽取模型[J]. 系统工程理论与实践 2013(01)
    • [8].维吾尔语短语自动抽取研究进展[J]. 计算机科学与探索 2015(12)
    • [9].融入形态特征的英语多词术语自动抽取研究[J]. 外语电化教学 2013(02)
    • [10].特定领域概念间关系自动抽取方法[J]. 北京邮电大学学报 2013(05)
    • [11].面向情报学课程设置的数据科学技能素养自动抽取及分析研究[J]. 情报理论与实践 2018(12)
    • [12].一种混合策略的领域术语自动抽取方法[J]. 电子制作 2015(08)
    • [13].文本元数据自动抽取算法的研究[J]. 计算机应用与软件 2011(12)
    • [14].基于深度学习的数据科学招聘实体自动抽取及分析研究[J]. 图书情报工作 2018(13)
    • [15].一种面向属性的论坛自动抽取方法[J]. 科学技术与工程 2009(24)
    • [16].基于深度学习的食品安全事件实体自动抽取模型研究[J]. 信息与电脑(理论版) 2018(23)
    • [17].面向源代码软件设计模式自动抽取技术的研究[J]. 电子世界 2013(24)
    • [18].基于互信息与词语共现的领域术语自动抽取方法研究[J]. 重庆邮电大学学报(自然科学版) 2013(05)
    • [19].语义关系自动抽取方法[J]. 山西大学学报(自然科学版) 2015(04)
    • [20].电商网页中商品规格信息自动抽取方法研究[J]. 计算机工程与应用 2017(24)
    • [21].改进的中文静态网页新闻正文自动抽取算法[J]. 东莞理工学院学报 2018(05)
    • [22].期刊论文元数据自动抽取系统的设计与实现[J]. 计算机光盘软件与应用 2014(21)
    • [23].基于本体实例信息的深度网表单属性自动抽取[J]. 小型微型计算机系统 2009(05)
    • [24].基于字同现频率的关键词自动抽取[J]. 北京信息科技大学学报(自然科学版) 2011(06)
    • [25].术语关系自动抽取方法研究[J]. 计算机科学 2010(02)
    • [26].科技文献元数据自动抽取研究述评[J]. 计算机系统应用 2013(03)
    • [27].基于特征及规则模式的学位论文元数据信息自动抽取研究[J]. 农业图书情报学刊 2015(02)
    • [28].基于统计方法的教育术语特征分析研究[J]. 计算机光盘软件与应用 2014(24)
    • [29].基于Web内容的一种数据自动抽取方法[J]. 计算机技术与发展 2012(05)
    • [30].一种自动抽取Web信息方法的设计与实现[J]. 计算机与现代化 2009(01)

    标签:;  ;  ;  

    领域术语自动抽取及关系分类研究
    下载Doc文档

    猜你喜欢