论文摘要
在自然语言理解和计算语言学中,热点之一是形容词修饰语研究,它指的是充当定语修饰名词的形容词。经典的方法是把形容词和名词都处理为谓词,形名语义的组合通过叠置原理来进行计算。尽管与数理逻辑清晰思路相吻合,但所存在的缺陷是难以准确地刻画形容词修饰不同名词时候的语义特征变化。因为形容词在汉语形名复合结构中所指称的是客观实体所具有的特征值,所以整个形名复合结构的语义分析能否在概念层次上准确地表征这些特征(属性名称及其值),是保证实体内涵概念组成完整性的关键之一,直接关系到基于概念图表示方法的信息检索中用户需求的完整性,从而影响到提高检索准确率。因此研究具有理论意义和实际应用价值。本文有关成果提供给对外汉语教学。本文研究是“内涵逻辑”理论研究及应用的一个组成部分,与名词概念语义模型、动词概念语义模型相结合,旨在应用于信息智能检索、数字图书馆等方面。本文研究了现代汉语的形容词修饰语,包括两个方面的主要内容:概念语义模型及其运用。语言语义模型是词语结构形式与语义之间对应关系的描述。模型正确解释了形容词作为特征值与特征(属性名)之间一与多的联结关系:多义性表征。手工标注的一定数量的实例特征及词典自动提取特征证实该模型的有效性。基于模型的语义关系解释,尝试和探索了计算可行性:基于词典的特征库、词典释义项中形容词概念属性自动提取,有关概念属性的同义词、反义词自动抽取以及改进对外汉语学习词典编撰。首先,研究了汉语中形容词多义性的表征。从四种多义性表征理论中,总结出了两种主要的语义分析方法:语义关系分析法和语义特征分析法。通过考察《现代汉语规范词典》中127个常用形容词的释义体系,发现常见的表征方式是同义词、反义词加相关特征。在此基础上,提出了一个“实体——特征(属性名)——值”相联结的语义模型。通常在‘AVS’系统中,特征所联结的是概念,并且一个值只能够与一个特征相联结。而在我们模型中,一个值与多个特征相联结。并且,这些特征基本上可由词典编纂者所提供。在数量上,能够解释一定数量的形名组合的情况。语义模型所解释的每一个形容词的具体的值和特征(属性名)是不同的。由于手工建构每一个形容词的语义模型费时费力,本文随机标注了小部分高频形容词的释义,以获取自动抽取的模板。此后,使用其余的形容词作测试结果,获得比较理想的准确率和召回率。从实验结果来看,从现有的文本词典中通过模板抽取的方法来自动生成形容词概念模型是可行的。从词典学的角度来看,所抽取的形容词语义模型在有关信息的呈现方面与原来的《现代汉语规范词典》相比具有了一些新的特点。首先,它把与词条相关的同义词、反义词和特征全部收录了。而在原来的词典中,一些同义词、反义词和特征分散于其他词条的信息中。因此,不利于学生,尤其是外国学生查找。此外,能够基于所联结的特征、实体和其余相关的值等几个方面简明地区分同义词、反义词的区别与联系。这样便于外国学生正确使用现代汉语形容词。方法论上重视汉语语言现象分析及汉语本体理论研究。对现代汉语中127个高频形容词及其相关的数千个形名组合结构进行了枚举式的实例分析。运用内涵逻辑的分析方法和当代认知语言学有关理论。本文研究的创新点主要在如下几方面:一、提出“实体——特征——值”的概念语义模型,表征了形容词的多义性。在经典的AVS模型中,人们研究了典型性、语境性和否定性等问题。他们的研究前提都是把形容词处理为单义词,而这不吻合自然语言的实际情况。二、在特征的设置上,比较成功地解决了特征的相对性问题。语义特征是语义知识库的一个重要组成部分,特征的界定和设置密切关系到计算机自动获取特征的准确率、召回率,但是,国内HowNet、CCD、《现代汉语语义词典》等各家设置的特征在数量和命名上不尽相同。本文考察了语义学中的经典理论、原型理论和关系理论,发现它们所提出的特征之间具有连续统关系。本文避开了先对名词进行本体上分类的做法,而是基于《现代汉语规范词典》中形容词的释义方式——同义词、反义词加特征。三、尝试把模型运用于对外汉语教学中。它起到了充当形容词同义词、反义词学习词典的作用。四、探索文本内向词典自动转换为电子学习词典的可行性。在计算语言学、自然语言理解领域,有两个基本的问题:‘如何算’与‘算什么’。前者关注算法的改进,一般采用统计分类的方法。后者的重点是建立语言模型,往往需要对一些基本的语义现象先进行手工分类。由于汉语形容词语义的复杂性,本文采用了第二种方法。在建模过程中,重点解决了特征的界定、分类等一些基本语义问题,为后续的自动抽取工作奠定了必要的语言学基础。