术语定义抽取、聚类与术语识别研究

术语定义抽取、聚类与术语识别研究

论文摘要

由于科技的进步,社会的发展,新概念、新事物不断涌现。这些新概念与新事物产生以后,必定要用一个术语来指称它,由此大量的术语融入语言词汇的集合之中。统计表明术语在语言词汇中所占的比例逐年增加,术语学的研究也越来越受到有关学者的重视。对这些术语进行深入系统的研究不但从语言学的角度上来说是必要的,而且从语言信息处理的角度来说,也具有实际的应用意义。 我们正处于一个网络飞速发展,信息激增的时代,如何从信息的海洋中高效地获取到需要的知识是一个亟待解决的问题。搜索引擎方便了人们的查询需求,但是针对查找术语释义这样一个特定的问题,搜索引擎却无法提供高效、便捷的查询服务。 在这样的背景下,本文提出了下述研究课题: 1.关于什么是术语的可操作性界定; 2.面向大规模文本的术语定义抽取方法; 3.术语定义的领域聚类方法: 4.术语定义抽取基础上的术语识别方法。 本文的研究以八千三百万字的涉及27个领域的包含328158条术语的术语数据库为术语专业语料,该数据库中的每条术语都有定义解释,同时以7年的人民日报为普通语料进行统计,在此基础上针对术语定义抽取、术语识别以及术语定义聚类进行考察。 本文的研究特色主要包括: 1.什么是术语的可操作性界定。从语言信息处理的角度出发,提出一种对于“术语”的界定:在某种程度上,术语就是被定义项,即术语是带定义性描述的词或词组。这种对术语的界定将术语与术语定义结合起来,将术语和普通词语区分开来,并且具有可操作性。 2.术语定义抽取方法。使用“规则”+“统计”的方法从真实文本中抽取出术语定义。通过考察术语定义用词与人民日报用词的不同,提出词语的“定义隶属度”和句子的“定义隶属度”的概念。由术语定义的匹配规则与排除规则提取候选定义,通过计算句子的定义

论文目录

  • 摘要
  • Abstract
  • 第一章 引论
  • 1.1 本研究提出的背景
  • 1.1.1 术语定义抽取的必要性
  • 1.1.2 术语定义的聚类的意义
  • 1.1.3 术语识别的意义
  • 1.2 国内外研究现状
  • 1.2.1 术语定义抽取的研究现状
  • 1.2.2 句子聚类的国内外研究
  • 1.2.3 术语识别的研究现状
  • 1.3 术语学介绍
  • 1.3.1 什么是术语学
  • 1.3.2 术语学的发展简介
  • 1.3.3 术语学的主要流派
  • 1.3.4 我国的术语学研究
  • 1.3.5 术语数据库
  • 1.3.6 术语概念的唯一性与术语定义的多样性
  • 1.3.7 术语与普通词语
  • 1.3.8 术语的跨语言借用
  • 1.3.9 新术语与旧术语在定义出现概率上的区别
  • 1.3.10 一些基本概念
  • 第二章 术语与术语定义的界定
  • 2.1 术语的界定
  • 2.1.1 学术界对术语的不同界定
  • 2.1.2 本文对术语的界定
  • 2.2 术语定义的界定
  • 2.2.1 学术界对定义的不同界定
  • 2.2.2 本文中所称的术语定义
  • 第三章 术语定义的抽取研究
  • 3.1 候选术语定义的规则匹配
  • 3.1.1 文本下载
  • 3.1.2 文本的预处理
  • 3.1.3 文本的分词
  • 3.1.4 候选术语定义的模板匹配
  • 3.2 基于统计方法的术语定义抽取
  • 3.2.1 词语的定义隶属度
  • 3.2.2 句子的定义隶属度
  • 3.2.3 句子的定义隶属度实验结果
  • 3.3 向量空间距离计算
  • 3.3.1 向量空间模型介绍
  • 3.3.2 向量空间模型的引用
  • 3.3.3 向量空间模型实验结果示例
  • 3.4 隶属度和向量空间模型的结合
  • 3.5 术语定义抽取系统结构
  • 3.6 最终实验结果
  • 3.7 实验结果评价
  • 3.8 实验中出现的问题
  • 3.8.1 网络文本结构多样因素
  • 3.8.2 语言表达的多样性
  • 3.8.3 分词的因素
  • 3.8.4 网络文本的可靠性因素
  • 3.8.5 搜索引擎的准确率因素
  • 3.9 术语定义的多样性
  • 3.9.1 传统意义上的定义
  • 3.9.2 定义的要求
  • 3.9.3 术语定义的多样性
  • 3.10 本章小结
  • 第四章 术语定义的聚类研究
  • 4.1 术语聚类的必要性
  • 4.2 聚类综述
  • 4.2.1 什么是聚类
  • 4.2.2 分类与聚类
  • 4.2.3 硬聚类和软聚类
  • 4.2.4 层级聚类与非层级聚类
  • 4.3 本文采用的聚类方法
  • 4.3.1 聚类步骤
  • 4.3.2 相似性的界定和属性的选取
  • 4.3.3 知网介绍
  • 4.4 术语定义的领域聚类
  • 4.4.1 句子相似度计算
  • 4.4.2 词语的相似度计算
  • 4.4.3 停用词表的建立
  • 4.4.4 聚类特征的选取
  • 4.5 聚类结果
  • 4.5.1 领域聚类的判定复杂性
  • 4.5.2 聚类相似度闽值的设定
  • 4.5.3 知网知识库在领域聚类中的优点和局限性
  • 4.5.4 聚类结果错误分析
  • 第五章 术语识别研究
  • 5.1 术语缺乏位置信息
  • 5.2 术语的语言学特征
  • 5.3 术语抽取
  • 5.3.1 术语的粗抽取
  • 5.3.2 术语边界的确定
  • 5.3.3 术语的词性过滤
  • 5.3.4 术语词性序列统计
  • 5.4 候选术语的统计特征
  • 5.4.1 术语的用词长度特征
  • 5.4.2 候选术语的长度与词频计算
  • 5.4.3 候选术语的最后得分
  • 5.5 过滤词表的构建
  • 5.5.1 过滤词表构建的必要性
  • 5.5.1 过滤词表的构建
  • 5.6 实验出现的问题
  • 5.6.1 模板不完备
  • 5.6.2 句子定义隶属度过低
  • 5.6.3 其它一些情况
  • 5.7 系统流程图
  • 5.8 评分标准
  • 5.9 实验结果
  • 5.10 本章小结
  • 第六章 结束语
  • 6.1 全文总结
  • 6.2 进一步的工作
  • 参考文献
  • 攻读博士学位期间发表的学术论文与参加的学术活动
  • 致谢
  • 相关论文文献

    • [1].术语学概念研究的再思考[J]. 中国科技术语 2020(01)
    • [2].第八届中国术语学建设暨术语与认知国际学术研讨会(一号通知)[J]. 中国科技术语 2020(01)
    • [3].中国科技术语稿约[J]. 中国科技术语 2020(02)
    • [4].第八届中国术语学建设暨术语与认知国际学术研讨会(一号通知)[J]. 外语学刊 2020(01)
    • [5].基于框架术语学理论的北约术语管理[J]. 中国科技术语 2020(03)
    • [6].新技术助益术语学新发展[J]. 中国科技术语 2020(03)
    • [7].近20年法国学者对现代术语学的贡献——基于术语学研究与构建知识本体交叉的视角[J]. 中国科技术语 2016(05)
    • [8].立足中国 放眼世界——致力于建设中国特色的术语学理论[J]. 中国科技术语 2017(04)
    • [9].俄罗斯术语学文献译介[J]. 中国科技术语 2017(05)
    • [10].交际术语学理论主张、特点及研究对象[J]. 中国科技术语 2017(05)
    • [11].试论术语学的建构是一种“科学研究纲领”的思想——兼评“交流(交际)术语学”在术语学发展中的作用[J]. 中国科技术语 2015(06)
    • [12].中俄术语学合作的一部力作——《术语论纲》评介[J]. 俄罗斯学刊 2016(01)
    • [13].本体术语学:把术语和知识本体统一起来的范式[J]. 中国科技术语 2016(03)
    • [14].大学术语学教育与培训的影响因素[J]. 中国科技术语 2016(03)
    • [15].现代西欧对术语学传统思想的质疑和新的思想突破[J]. 中国科技术语 2015(01)
    • [16].当前欧洲术语学的认知理论方向[J]. 中国科技术语 2015(02)
    • [17].现代术语学理论要览[J]. 中国科技术语 2015(04)
    • [18].德俄术语学比较[J]. 外语学刊 2015(06)
    • [19].浅析奥地利维也纳术语学派[J]. 中国科技术语 2013(06)
    • [20].第五届“中国术语学建设暨术语规范化”研讨会召开[J]. 中国科技术语 2013(06)
    • [21].俄罗斯认知术语学研究述评[J]. 边疆经济与文化 2013(12)
    • [22].凝心聚力 打造高水平的术语学学术期刊[J]. 中国科技术语 2020(05)
    • [23].认知术语学主要理论与术语生成——以新冠肺炎命名为例[J]. 中国科技术语 2020(05)
    • [24].中国术语学研究的八大特点[J]. 中国科技术语 2019(02)
    • [25].推动国际术语学交流 打造术语学研究平台[J]. 中国科技术语 2017(06)
    • [26].认知术语学:术语学研究的新方向[J]. 外语学刊 2014(03)
    • [27].浅论术语学是知识技术的前提[J]. 中国科技术语 2013(02)
    • [28].俄罗斯认知术语学研究管窥[J]. 中国俄语教学 2013(03)
    • [29].术语学与科学理论——兼谈维也纳术语学派与维也纳哲学学派在科学理论方面的关系[J]. 中国科技术语 2013(03)
    • [30].冯志伟先生《现代术语学引论》(增订本)评介[J]. 中国科技术语 2012(06)

    标签:;  ;  ;  ;  ;  

    术语定义抽取、聚类与术语识别研究
    下载Doc文档

    猜你喜欢