“给X+V”格式中介词短语“给X”的边界识别

“给X+V”格式中介词短语“给X”的边界识别

论文摘要

汉语语料库建设是一项系统工程,可以分为自动分词、词性标注、句法分析和标注及语义语用分析及标注四个层次。就中文信息处理说,目前特别要集中精力解决好“句处理”(句法分析和标注、语义语用分析及标注)问题。而介词结构是现代汉语中一种相当重要的短语结构,其的自动识别对于进一步进行句法分析具有重要意义。介词既具有共性,也具有很强的个性。因此,本文选取介词“给”来进行个案分析,试图通过对“给X+V”格式中介词短语“给X”的自动识别来为介词结构的自动识别和句法分析作出贡献。在前人研究的基础上,我们立足于语料库,对“给X+V”格式及相关问题进行了详尽考察:第一章主要是对“给”前成分进行分析。由于序列“V给NP”可能发生结构定界歧义,即:V/给NP和V给/NP,因此要对介词短语“给X”的边界进行识别,就要先确定格式的定界问题。我们区分了两种不同组合中的“给”前成分V,并将其分别整理成表。第二章主要是对与“给X”相关的结构进行分析。通过分析语料,我们发现有的动词一旦再和简单趋向动词等组合,形成一个整体,其组合能力就会发生极大的变化,能与“给X”相组合形成比较固定的结构。在有些特定的格式中,虽然介词“给”的语义发生了一定程度的虚化,但是本文都将其列入研究范围,不做区分。第三章主要是对格式“给X+V”中的核心动词V进行分析。通过分析统计得出:“给X”基本上是与动词直接连接,“给X”与V之间还有其他修饰成分的例句也只占极少数(占2.11%)。而能进入此格式的动词主要是二价动作动词,其次是三价动词,一价动词则比较少。我们把不能跟“给X”组合的动词列成了一个词表。第四章是本文的研究重点。主要对格式“给X+V”中“X”的句法形式进行了详尽的描写和分析。“X”基本为体词性成分,且74.02%是由单个的词组成,25.98%是由复杂短语组成。复杂短语中有的短语含有动词,但大都具有比较明显的形式标记。第五章主要是在本体研究和形式表达的基础上,设计出识别介词短语“给X”的算法,并将其进一步形象化,作出了识别流程图。由于本文既基于大规模语料库,又面向计算机自动识别,因此本文采取了定量分析、形式描写和统计数据相结合的方法,通过对语料进行标注、分析和处理,得到了大量基于语料库的词表,十分有助于介词短语“给X”的边界识别;提炼出了较为精密、形式化的规则,供给了计算机形式化的表述。但是本文仍存在一定不足,需今后进一步努力。

论文目录

  • 摘要
  • Abstract
  • 零 引言
  • 0.1 研究意义和目标
  • 0.2 前人研究成果借鉴
  • 0.2.1 相关的语言学研究
  • 0.2.2 短语自动识别研究
  • 0.3 研究的思路和有关说明
  • 0.3.1 研究的思路
  • 0.3.2 语料介绍
  • 0.3.3 语料预处理中的问题
  • 第一章 “给”前成分分析
  • 1.1 格式“V 给/NP”中的“V
  • 1.2 格式“V/给NP”中的“V”
  • 1.3 小结
  • 第二章 与“给X”相关结构分析
  • 2.1 一些特殊结构
  • 2.1.1 结构“给X看
  • 2.1.2 结构“给X吃
  • 2.1.3 结构“给X 喝”
  • 2.1.4 结构“V+NP+给X+看/吃/喝/听
  • 2.1.5 小结
  • 2.2 一些固定结构
  • 2.2.1 结构“给
  • 2.2.2 结构“给
  • 2.2.3 结构“给
  • 2.2.4 结构“给
  • 2.2.5 小结
  • 第三章 “给X+V”格式中“V”的分析
  • 3.1 “给X+V”格式中V 的句法特征
  • 3.1.1 格式中“V”的构成
  • 3.1.2 格式中“V”的修饰成分
  • 3.1.3 小结
  • 3.2 “给X+V”格式中“V”的类型
  • 第四章 “给X+V”格式中X 的分析
  • 4.1 格式中X 的句法特征
  • 4.1.1 格式中X 的功能类别
  • 4.1.2 格式中X 的内部构造
  • 4.1.3 谓词性X 的句法特征
  • 4.1.4 小结
  • 4.2 格式中X 的语义特征
  • 4.2.1 格式中X 的语义属性
  • 4.2.2 格式中X 的语义范畴
  • 4.2.3 小结
  • 第五章 介词短语“给X”的自动识别
  • 5.1 与识别有关的说明
  • 5.2 算法设计
  • 5.2.1 总体思路
  • 5.2.2 算法设计
  • 5.3 识别流程图
  • 第六章 结语
  • 致谢
  • 参考文献
  • 附录
  • 攻读学位期间取得的研究成果(含发表的学术论文)
  • 附件
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    “给X+V”格式中介词短语“给X”的边界识别
    下载Doc文档

    猜你喜欢