论文摘要
汉语语料库建设是一项系统工程,可以分为自动分词、词性标注、句法分析和标注及语义语用分析及标注四个层次。就中文信息处理说,目前特别要集中精力解决好“句处理”(句法分析和标注、语义语用分析及标注)问题。而介词结构是现代汉语中一种相当重要的短语结构,其的自动识别对于进一步进行句法分析具有重要意义。介词既具有共性,也具有很强的个性。因此,本文选取介词“给”来进行个案分析,试图通过对“给X+V”格式中介词短语“给X”的自动识别来为介词结构的自动识别和句法分析作出贡献。在前人研究的基础上,我们立足于语料库,对“给X+V”格式及相关问题进行了详尽考察:第一章主要是对“给”前成分进行分析。由于序列“V给NP”可能发生结构定界歧义,即:V/给NP和V给/NP,因此要对介词短语“给X”的边界进行识别,就要先确定格式的定界问题。我们区分了两种不同组合中的“给”前成分V,并将其分别整理成表。第二章主要是对与“给X”相关的结构进行分析。通过分析语料,我们发现有的动词一旦再和简单趋向动词等组合,形成一个整体,其组合能力就会发生极大的变化,能与“给X”相组合形成比较固定的结构。在有些特定的格式中,虽然介词“给”的语义发生了一定程度的虚化,但是本文都将其列入研究范围,不做区分。第三章主要是对格式“给X+V”中的核心动词V进行分析。通过分析统计得出:“给X”基本上是与动词直接连接,“给X”与V之间还有其他修饰成分的例句也只占极少数(占2.11%)。而能进入此格式的动词主要是二价动作动词,其次是三价动词,一价动词则比较少。我们把不能跟“给X”组合的动词列成了一个词表。第四章是本文的研究重点。主要对格式“给X+V”中“X”的句法形式进行了详尽的描写和分析。“X”基本为体词性成分,且74.02%是由单个的词组成,25.98%是由复杂短语组成。复杂短语中有的短语含有动词,但大都具有比较明显的形式标记。第五章主要是在本体研究和形式表达的基础上,设计出识别介词短语“给X”的算法,并将其进一步形象化,作出了识别流程图。由于本文既基于大规模语料库,又面向计算机自动识别,因此本文采取了定量分析、形式描写和统计数据相结合的方法,通过对语料进行标注、分析和处理,得到了大量基于语料库的词表,十分有助于介词短语“给X”的边界识别;提炼出了较为精密、形式化的规则,供给了计算机形式化的表述。但是本文仍存在一定不足,需今后进一步努力。