汉语介词短语的自动识别

汉语介词短语的自动识别

论文题目: 汉语介词短语的自动识别

论文类型: 硕士论文

论文专业: 计算机应用技术

作者: 干俊伟

导师: 黄德根

关键词: 自然语言处理,浅层句法分析,介词短语识别

文献来源: 大连理工大学

发表年度: 2005

论文摘要: 介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围;可以简化句子结构,降低后续句法分析的难度;在基于模板的翻译中,它还能为模板匹配提供方便。由于自然语言的灵活性和复杂性,使得句法分析成为一项十分艰难的工作,因此,浅层句法分析成了当前的研究热点。浅层句法分析的优点是可以识别出确定性高的部分分析结果,减少句法分析中的歧义,从而降低句法分析的难度。尽管目前的浅层句法分析以组块识别为主,但是由于介词短语本身的复杂性和特殊性,所以依然有必要如前人单独讨论名词短语识别一样,分析和探讨介词短语的识别问题。语言学研究表明,介词短语的内部构成比较复杂,但有着显著的边界特征和上下文特征。本文继承了Church提出的把BaseNP识别看作词性标注同构问题的思想,利用这些特征,构造了一个有效的汉语介词短语识别模型,尝试在浅层句法分析这个层级识别介词短语。即,在分词和词性标注的基础上,把介词短语作为一个整体识别出来,而不对其内部构成作分析。模型分为两部分:(1)根据介词和介词短语右边界经常出现固定搭配的特点,构造了两个搭配模板,从训练语料中自动提取可信搭配关系,并用这些搭配关系对介词短语进行初步识别。(2)考虑到介词对介词短语右边界的影响,把介词作为一元加入到Church提出的基于词性的二元边界统计模型中,构成了三元模型。又根据介词短语的上下文特征,加入了规则方法。用基于词性的三元边界统计模型和规则相结合的方法识别第一步无法处理的介词短语。对含有7324个介词短语的语料作交叉测试,精确率达到88.29%。实验结果表明,在浅层句法分析中识别介词短语是可行的。

论文目录:

摘要

Abstract

引言

(1)介词短语识别

(2)介词短语识别的意义

(3)介词短语识别的难点

(4)有关介词短语的研究

(5)本文所做的工作

1 问题描述

1.1 介词的定义

1.2 介词短语的定义

1.3 介词短语识别

2 统计语言模型

2.1 自然语言处理

2.2 浅层句法分析

2.3 统计模型概述

2.4 规则方法的概率化

2.5 统计模型在浅层句法分析中的应用

2.6 数据平滑方法

3 汉语介词短语识别模型

3.1 介词短语的特点

3.1.1 框架模式

3.1.2 边界特征

3.1.3 远距离修饰关系

3.2 搭配模板

3.3 基于词性的三元边界统计模型

3.4 规则方法

3.5 基于词性的三元边界统计模型和规则相结合

3.6 介词短语嵌套关系的处理

3.7 数据平滑处理

4 汉语介词短语识别系统实现

4.1 汉语介词短语识别系统的工程环境

4.1.1 NiHao翻译系统简介

4.1.2 汉语介词短语识别系统和NiHao翻译系统的关系

4.2 汉语介词短语识别系统的数据库

4.3 模块划分和概要设计

4.4 汉语介词短语识别系统的详细流程

5 实验结果分析

5.1 实验语料

5.2 实验结果

5.3 训练语料规模对实验的影响

5.4 错误分析

结论

参考文献

附录A 部分识别结果

攻读硕士学位期间发表学术论文情况

致谢

发布时间: 2008-07-15

参考文献

  • [1].基于细粒度短语信息的汉语介词短语识别研究[D]. 刘彤.大连理工大学2018
  • [2].基于最大熵的汉语介词短语自动识别[D]. 于浚涛.大连理工大学2006
  • [3].基于层叠条件随机场的汉语介词短语识别研究[D]. 张灵.沈阳航空航天大学2013
  • [4].基于简单名词短语的汉语介词短语识别研究[D]. 桑乐园.大连理工大学2016
  • [5].基于CRF模型的汉语介词短语识别[D]. 胡思磊.大连理工大学2008
  • [6].基于多层CRFs的汉语介词短语识别研究[D]. 张杰.大连理工大学2013
  • [7].基于用法属性的现代汉语介词短语边界识别研究[D]. 袁应成.郑州大学2011
  • [8].汉语介词短语识别研究[D]. 宋贵哲.大连理工大学2011
  • [9].基于语义分析的汉语短语识别方法研究[D]. 卢朝华.河南科技大学2009
  • [10].自然语言处理中介词短语附着消歧问题的研究[D]. 廖博森.电子科技大学2010

相关论文

  • [1].基于用法属性的现代汉语介词短语边界识别研究[D]. 袁应成.郑州大学2011
  • [2].汉语介词短语识别研究[D]. 宋贵哲.大连理工大学2011
  • [3].现代汉语“按照”类介词短语和介词框架考察[D]. 徐敏.上海师范大学2010
  • [4].基于CRF模型的汉语介词短语识别[D]. 胡思磊.大连理工大学2008
  • [5].韩国学生使用汉语介词偏误分析[D]. 周正红.辽宁师范大学2007
  • [6].基于最大熵的汉语介词短语自动识别[D]. 于浚涛.大连理工大学2006
  • [7].现代汉语介词短语语序问题研究[D]. 陈伟.贵州大学2007
  • [8].汉语常用同义介词比较研究[D]. 王亚西.广西师范大学2002
  • [9].现代汉语介词短语边界识别研究[D]. 王立霞.北京语言文化大学2003
  • [10].现代汉语介词结构位置的考察及影响其位置的句法、语义因素分析[D]. 魏庭新.北京语言大学2004

标签:;  ;  ;  

汉语介词短语的自动识别
下载Doc文档

猜你喜欢