基于CRF模型的汉语介词短语识别

基于CRF模型的汉语介词短语识别

论文摘要

介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围;可以简化句子结构,降低后续句法分析的难度;在基于模板的翻译中,它还能为模板匹配提供方便。本文首先指出了当前完全语法分析的困难,并介绍了介词短语识别的研究现状及技术路线,提出了汉语介词短语识别的重要性和可行性。在研究过程中,本文继承了Church提出的把BaseNP识别看作词性标注同构问题的思想,尝试在浅层句法分析这个阶段识别介词短语。由于CRF具有表达元素长距离依赖性和交叠性特征的能力,并且介词短语的平均词长比较长,决定采用CRF模型来识别介词短语。首先考虑采用基于CRF单层模型来识别介词短语,在实验分析中发现嵌套介词短语、跨越分句的介词和有歧义的介词短语识别错误导致整个识别精确率不高,后面两类介词短语识别难度较大,不重点研究。本文只针对嵌套介词短语识别错误提出了一种基于CRF的层次结构来识别介词短语。据统计发现,在大量文本出现的都是两层嵌套,三层嵌套在文本中的比例很少,所以只需用基于CRF双层模型来识别介词短语。第一层CRF识别无嵌套介词短语和嵌套介词短语的内层部分,第二层CRF识别嵌套介词短语的外层部分,之后将两层结果合并,最后用规则进行后续处理。实验表明,利用基于CRF双层模型的方法来识别中文介词短语是有效的;系统使用含有7000余个介词短语的2000年人民日报语料的开放测试精确率达到90.08%。和当前同类文献相比,本识别系统取得比较好的识别结果。由于介词短语结构上和动词短语有相似之处,它的研究可以为动词性短语的研究提供某种启示。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 介词短语
  • 1.2 研究目标
  • 1.3 研究意义
  • 1.4 介词短语识别的困难
  • 1.5 国内外研究现状
  • 1.5.1 国外研究现状
  • 1.5.2 国内研究现状
  • 1.6 本文的主要工作
  • 2 相关理论基础
  • 2.1 自然语言处理
  • 2.2 浅层句法分析
  • 2.3 统计模型概述
  • 2.4 规则方法概率化
  • 2.5 统计模型在浅层句法分析中的应用
  • 3 条件随机场模型
  • 3.1 条件随机场的图结构
  • 3.2 条件随机场的势函数表示
  • 3.3 序列标记任务
  • 3.4 条件随机场的参数估计
  • 3.5 概率计算
  • 3.6 动态规划
  • 4 基于条件随机场(CRF)的汉语介词短语识别
  • 4.1 汉语介词短语识别与中日机器翻译系统的关系
  • 4.2 基于CRF的汉语介词短语识别
  • 4.2.1 标记集的选取
  • 4.2.2 特征的选取
  • 4.2.3 可信搭配关系获取及计算
  • 4.2.4 特征模板的构建
  • 4.2.5 基于CRF单层模型的介词短语识别
  • 4.2.6 基于CRF双层模型的汉语介词短语识别算法
  • 4.2.7 后续处理
  • 5 介词短语识别的结果与分析
  • 5.1 实验数据说明
  • 5.2 评价参数
  • 5.3 实验结果及分析
  • 5.3.1 基于双层CRF模型的介词短语识别
  • 5.3.2 训练语料规模对实验的影响
  • 5.3.3 与其它方法的比较
  • 5.4 错误分析
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].法语中常用的表示动词意义的介词短语[J]. 法语学习 2016(02)
    • [2].现代汉语介词短语补语的划界问题浅析[J]. 文教资料 2017(17)
    • [3].浅析商务英语中介词短语的用法和翻译——以介词in和as短语为例[J]. 考试周刊 2016(A3)
    • [4].英语中介词的几种学习方法小结[J]. 现代职业教育 2016(28)
    • [5].介词短语真的不能做主语吗[J]. 小学语文教师 2017(04)
    • [6].初中常见介词短语回顾[J]. 初中生辅导 2017(Z6)
    • [7].英语介词短语的级阶[J]. 首都外语论坛 2013(00)
    • [8].基于多模型融合的汉语介词短语识别[J]. 中文信息学报 2017(06)
    • [9].“貌不惊人”的介词短语[J]. 初中生天地 2017(Z1)
    • [10].英汉介词短语语义指向对比研究[J]. 重庆交通大学学报(社会科学版) 2013(05)
    • [11].“介词短语”档案馆[J]. 中学英语之友(初一版) 2009(08)
    • [12].基于语义分析的汉语介词短语识别方法研究[J]. 电脑与电信 2012(03)
    • [13].当事介词短语的生成及其构句机制[J]. 汉语学习 2010(02)
    • [14].基于最大熵的汉语介词短语识别研究[J]. 通信技术 2010(05)
    • [15].双介词短语的句法功能及相互关系[J]. 商丘师范学院学报 2008(02)
    • [16].介词短语同时作状语和补语及语义差异的原因[J]. 现代语文(语言研究版) 2011(04)
    • [17].受事介词短语的生成及其构句机制[J]. 学术交流 2009(05)
    • [18].级转移与复合介词:汉语投射介词短语的功能语法辨析[J]. 西安外国语大学学报 2018(02)
    • [19].英语“主从介词短语复合体”的系统功能语言学研究[J]. 外语教学与研究 2017(03)
    • [20].“介词短语”档案馆[J]. 中学英语园地(初一版) 2008(09)
    • [21].介词短语识别中规则与统计方法融合的探讨[J]. 现代计算机(专业版) 2010(13)
    • [22].英语介词短语的名物化现象探究[J]. 中小学外语教学(中学篇) 2008(06)
    • [23].prepositional phrases[J]. 时代英语(高一) 2008(03)
    • [24].从功能语法研究面向机器翻译的介词短语附着[J]. 黑龙江科技信息 2013(11)
    • [25].对象介词短语的内涵特征与变体类别[J]. 广东技术师范学院学报 2011(11)
    • [26].涟源方言处置句中主语述语间两项介词短语的同现[J]. 云梦学刊 2008(06)
    • [27].领事介词短语蕴涵句考释[J]. 信阳师范学院学报(哲学社会科学版) 2012(01)
    • [28].涵事介词短语的生成及其构句机制[J]. 信阳师范学院学报(哲学社会科学版) 2010(03)
    • [29].论英汉介词与介词短语的异同[J]. 河北北方学院学报 2008(06)
    • [30].电力科技英语文本中介词短语的句法分析[J]. 上海电力学院学报 2017(S1)

    标签:;  ;  ;  

    基于CRF模型的汉语介词短语识别
    下载Doc文档

    猜你喜欢