论文摘要
全自动的语义分析一直是自然语言理解的主要任务之一。通过深层语义分析,可以将自然语言转化为形式语言,从而使计算机能够与人类无障碍的沟通。为达此目的,人们已经进行了多年的努力,然而由于这一问题过于复杂,目前取得的效果并不理想。浅层语义分析是对深层语义分析的一种简化,它只标注与句子中谓词有关的成分的语义角色,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。语义角色标注是浅层语义分析的一种实现方式,具有定义清晰,便于评价的优点,近年来受到越来越多学者的关注。目前主流的语义角色标注研究集中于使用各种统计机器学习技术,利用多种语言学特征,进行语义角色的识别和分类。近年的研究表明,影响语义角色标注系统性能的首要因素并非机器学习模型,而是使用的特征。因此,若想提高系统的性能,细致的特征工程工作是必不可少的。然而,随着越来越多特征的加入,特征之间的相互影响越来越严重,使得系统性能增长的趋势逐渐趋缓,并达到一个上限。为此必须寻找新的方法以解决这一问题。基于核的方法通过对已有特征进行组合或者分解,将低维特征空间映射到高维特征空间,从而将在低维空间不容易区分的问题在高维空间加以解决,是一种可行的解决方案。本文正是利用核方法这一优点,将其应用于语义角色标注这一问题中。除了使用已有的核方法外,还提出了多种新的核方法。首先,我们构造了一个语义角色标注基线系统,该系统使用特征向量表示待分类对象,并在特征向量之上,使用基于多项式核的方法,自动的对特征进行组合。实验结果表明,当使用二次多项式核对特征进行两两组合时,该系统是目前已知的最好的基于单句法分析器的语义角色标注系统之一。接着,我们针对基线系统中,特征向量很难恰当的表示结构化的特征这一问题,使用了卷积树核自动将较大的结构特征进行分解,并能够在多项式时间内进行核函数的计算。然而,通常的卷积树核混淆了语义角色标注中不同的特征,因此,我们提出了混合卷积树核融合多种树核,来对不同种类的特征分别进行建模,最终获得优于标准卷积树核的性能。然后将混合卷积树核与二次多项式核进行融合,得到的复合核取得了比单独使用两种核都好的结果。但是,标准卷积树核要求两棵子树之间必须是精确匹配的,而不考虑结构相似,语义角色相同的情况。因此,我们提出了新的句法驱动卷积树核,在核函数的设计过程中,融入了语言学知识,容许结构和节点的近似匹配,最终取得了较标准卷积树更好的性能。最后同样与多项式核进行融合,并取得了更好的性能。最后,我们使用基于核的方法,实现了一个目前最好的中文语义角色标注系统。主要贡献在于提出了更适用于中文的新特征,同时首次将核方法应用于中文语义角色标注中,得到了与英文相同的性能趋势,从而也证明了我们提出的核方法的有效性。
论文目录
相关论文文献
标签:语义角色标注论文; 多项式核论文; 卷积树核论文; 混合卷积树核论文; 句法驱动的卷积树核论文;