汉语术语语义分析技术研究及其应用

汉语术语语义分析技术研究及其应用

论文摘要

汉语语义分析是自然语言处理的核心技术之一,也是对汉语的深层理解。汉语语义分析效果的提高对于信息检索和机器翻译都具有推动作用。随着科技的发展,术语也不断涌现,所以对术语语义分析的研究也有着重大的意义。本文对术语的特点进行研究,实现了汉语术语语义分析系统。该系统包括依存分析和语义分析两个部分,这两部分通过机器学习的方法实现。在语义分析的基础上实现了汉语术语翻译系统,并取得了较好的效果。具体内容如下:首先,对大量的汉语术语进行分析,发现术语大部分为名词性短语,而且术语用词的重复性低。针对上述两个特点,在依存分析阶段,本文选择适合术语的特征,利用支持向量机(SVM)训练得到依存分析模型,从而有效识别出了术语内部的依存关系。所选特征包括基本特征,互信息特征和知网第一义原特征。其次,提出了一种汉语术语语义分析方法。本文定义了14种语义关系,并利用CRF训练得到语义分析模型,该模型可以有效识别出两个词之间的语义关系。由于术语所涉及的语义关系范围较窄,所以该模型对于易混淆的类别分类能力较差。本文对于易混淆的类别采用SVM训练分类器,对CRF模型输出的2-best结果中的两个语义关系进行识别,确定词对最终语义关系。最后,将语义分析技术应用到了术语翻译。首先对术语进行依存分析,根据依存分析的结果抽取出结构化的短语,再利用传统的GROW-DIAL-FINAL方法抽取非结构化短语;之后利用提取的调序模板对源语言进行调序;最后利用摩西对已经调序的术语解码。实验结果表明语义分析方法的有效性,在大类语义关系和小类语义关系上正确率分别达到77.13%和69.05%。将语义分析结果应用到术语翻译,使翻译的效果有所提高。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 术语语义分析过程
  • 1.2 课题的提出
  • 1.3 本文的研究意义
  • 1.3.1 术语语义分析
  • 1.3.2 术语自动翻译
  • 1.4 本文的主要工作
  • 1.5 本文的组织结构
  • 第2章 相关研究
  • 2.1 术语的特点
  • 2.2 术语分析方法
  • 2.2.1 依存分析方法
  • 2.2.2 语义分析方法
  • 2.3 术语翻译方法
  • 2.3.1 基于机器翻译的方法
  • 2.3.2 基于语言学特征的翻译方法
  • 2.4 本章小结
  • 第3章 基于统计和规则相结合的汉语术语语义分析方法
  • 3.1 基于SVM 的依存分析方法
  • 3.1.1 SVM 模型
  • 3.1.2 特征选择
  • 3.1.3 SVM 与规则结合的依存分析
  • 3.2 基于CRF 和SVM 相结合的语义分析方法
  • 3.2.1 CRF 模型
  • 3.2.2 语义关系定义
  • 3.2.3 基于规则的分词错误处理
  • 3.2.4 基于CRF 的语义分析
  • 3.2.5 结果后处理
  • 3.3 实验结果与分析
  • 3.3.1 实验设置
  • 3.3.2 依存分析结果
  • 3.3.3 语义分析结果
  • 3.3.4 错误实例分析
  • 3.4 本章小结
  • 第4章 基于语义分析的术语翻译方法
  • 4.1 短语抽取
  • 4.1.1 非结构化短语抽取
  • 4.1.2 结构化短语抽取
  • 4.2 源语言调序
  • 4.2.1 调序模板
  • 4.2.2 术语调序
  • 4.3 解码
  • 4.4 实验结果及分析
  • 4.4.1 评测方法
  • 4.4.2 实验设置
  • 4.4.3 实验结果及分析
  • 4.5 本章小结
  • 第5章 系统设计与实现
  • 5.1 系统整体流程
  • 5.2 依存分析模块
  • 5.2.1 处理语料
  • 5.2.2 特征提取
  • 5.2.3 模型训练
  • 5.3 语义分析模块
  • 5.4 术语翻译模块
  • 5.4.1 短语表
  • 5.4.2 调序
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 攻读硕士期间发表(含录用)的学术论文
  • 相关论文文献

    • [1].基于句法依存分析的事件角色填充研究[J]. 情报科学 2017(07)
    • [2].基于依存树的藏语语义分析[J]. 清华大学学报(自然科学版) 2019(09)
    • [3].基于依存搭配抽取技术的平面媒体语言监测研究[J]. 山西大学学报(自然科学版) 2019(03)
    • [4].基于SVM的汉语决策式依存分析[J]. 计算机工程 2010(21)
    • [5].汉语语义分析方法研究[J]. 计算机应用研究 2010(02)
    • [6].基于启发式错误驱动学习的中文时间表达式识别[J]. 高技术通讯 2008(12)
    • [7].基于序列标注的中文依存句法分析方法[J]. 计算机应用与软件 2009(10)
    • [8].基于分析和生成的复述与SMT语料扩展[J]. 哈尔滨工业大学学报 2013(05)
    • [9].基于最大熵的句内时间关系识别[J]. 计算机工程 2012(04)

    标签:;  ;  ;  

    汉语术语语义分析技术研究及其应用
    下载Doc文档

    猜你喜欢