“给X+V”格式中介词短语“给X”的边界识别

论文摘要

汉语语料库建设是一项系统工程,可以分为自动分词、词性标注、句法分析和标注及语义语用分析及标注四个层次。就中文信息处理说,目前特别要集中精力解决好“句处理”（句法分析和标注、语义语用分析及标注）问题。而介词结构是现代汉语中一种相当重要的短语结构,其的自动识别对于进一步进行句法分析具有重要意义。介词既具有共性,也具有很强的个性。因此,本文选取介词“给”来进行个案分析,试图通过对“给X+V”格式中介词短语“给X”的自动识别来为介词结构的自动识别和句法分析作出贡献。在前人研究的基础上,我们立足于语料库,对“给X+V”格式及相关问题进行了详尽考察:第一章主要是对“给”前成分进行分析。由于序列“V给NP”可能发生结构定界歧义,即:V/给NP和V给/NP,因此要对介词短语“给X”的边界进行识别,就要先确定格式的定界问题。我们区分了两种不同组合中的“给”前成分V,并将其分别整理成表。第二章主要是对与“给X”相关的结构进行分析。通过分析语料,我们发现有的动词一旦再和简单趋向动词等组合,形成一个整体,其组合能力就会发生极大的变化,能与“给X”相组合形成比较固定的结构。在有些特定的格式中,虽然介词“给”的语义发生了一定程度的虚化,但是本文都将其列入研究范围,不做区分。第三章主要是对格式“给X+V”中的核心动词V进行分析。通过分析统计得出:“给X”基本上是与动词直接连接,“给X”与V之间还有其他修饰成分的例句也只占极少数（占2.11%）。而能进入此格式的动词主要是二价动作动词,其次是三价动词,一价动词则比较少。我们把不能跟“给X”组合的动词列成了一个词表。第四章是本文的研究重点。主要对格式“给X+V”中“X”的句法形式进行了详尽的描写和分析。“X”基本为体词性成分,且74.02%是由单个的词组成,25.98%是由复杂短语组成。复杂短语中有的短语含有动词,但大都具有比较明显的形式标记。第五章主要是在本体研究和形式表达的基础上,设计出识别介词短语“给X”的算法,并将其进一步形象化,作出了识别流程图。由于本文既基于大规模语料库,又面向计算机自动识别,因此本文采取了定量分析、形式描写和统计数据相结合的方法,通过对语料进行标注、分析和处理,得到了大量基于语料库的词表,十分有助于介词短语“给X”的边界识别;提炼出了较为精密、形式化的规则,供给了计算机形式化的表述。但是本文仍存在一定不足,需今后进一步努力。

论文目录

摘要

Abstract

零引言

0.1 研究意义和目标

0.2 前人研究成果借鉴

0.2.1 相关的语言学研究

0.2.2 短语自动识别研究

0.3 研究的思路和有关说明

0.3.1 研究的思路

0.3.2 语料介绍

0.3.3 语料预处理中的问题

第一章 “给”前成分分析

1.1 格式“V 给/NP”中的“V

1.2 格式“V/给NP”中的“V”

1.3 小结

第二章与“给X”相关结构分析

2.1 一些特殊结构

2.1.1 结构“给X看

2.1.2 结构“给X吃

2.1.3 结构“给X 喝”

2.1.4 结构“V＋NP＋给X＋看/吃/喝/听

2.1.5 小结

2.2 一些固定结构

2.2.1 结构“给

2.2.2 结构“给

2.2.3 结构“给

2.2.4 结构“给

2.2.5 小结

第三章 “给X＋V”格式中“V”的分析

3.1 “给X＋V”格式中V 的句法特征

3.1.1 格式中“V”的构成

3.1.2 格式中“V”的修饰成分

3.1.3 小结

3.2 “给X＋V”格式中“V”的类型

第四章 “给X＋V”格式中X 的分析

4.1 格式中X 的句法特征

4.1.1 格式中X 的功能类别

4.1.2 格式中X 的内部构造

4.1.3 谓词性X 的句法特征

4.1.4 小结

4.2 格式中X 的语义特征

4.2.1 格式中X 的语义属性

4.2.2 格式中X 的语义范畴

4.2.3 小结

第五章介词短语“给X”的自动识别

5.1 与识别有关的说明

5.2 算法设计

5.2.1 总体思路

5.2.2 算法设计

5.3 识别流程图

第六章结语

致谢

参考文献

附录

攻读学位期间取得的研究成果（含发表的学术论文）

附件

“给X+V”格式中介词短语“给X”的边界识别

论文摘要

论文目录

相关论文文献

猜你喜欢