论文摘要
支持向量机(Support Vector Machine, SVM)具有统计学习理论(Statistical learning theory, SLT)的坚实理论基础,而且具有完美的数学形式、直观的几何解释和良好的泛化能力,是解决数据挖掘中若干问题的有力工具。然而在实际应用中大部分要处理的数据往往具有复杂的结构,如树形结构、网状结构和队列结构等,这时用传统的支持向量机处理这类数据问题会非常困难。针对这些复杂的且彼此之间存在相互依赖关系的结构性数据,结构化支持向量机(Structured Support Vector Machine, SVM-Struct)是一种较好的可解决此类数据处理问题的学习方法。因此,对结构化支持向量机学习方法的研究以及将其应用在实际领域具有重要的理论意义和实际应用价值。为研究SVM-Struct的学习机理,本文以中文句法分析为例,通过构造适合中文句法分析的结构化特征函数ψ(x,y),建立加权上下文无关文法分析模型,将SVM-Struct学习方法应用于中文句法分析中。由于中文句法具有复杂的数据结构,所以可以很好地检验本文提出方法的有效性。本文的研究工作主要包括以下内容:(1)对结构化支持向量机学习原理进行了深入的分析,讨论了结构化特征函数的构造方法。(2)提出了一种面向中文句法分析的结构化支持向量机学习方法。该方法通过构造适合于中文句法分析的结构化特征函数Ψ(x,y),建立了加权上下文无关文法模型,结合CYK (Cocke, Kasami, Younger,简称CYK)算法对中文句法进行分析。(3)在来自北京大学计算语言学研究所公开的微型语料库中的树库样上对本文提出的学习算法进行了验证,同时与经典的概率上下文无关文法(Probabilistic Context-Free Grammar,简称PCFG)进行了比较,实验结果验证了本文提出的基于结构化支持向量机的中文句法分析的可行性及有效性。本文通过对SVM-Struct学习方法的深入研究,提出一种面向中文句法分析的SVM-Struct学习方法,拓展了SVM-Struct的应用领域。本文所取得的研究成果不仅丰富了支持向量机的理论和方法研究,同时为中文句法分析提供了全新的研究方法。
论文目录
相关论文文献
标签:支持向量机论文; 结构化支持向量机论文; 结构化特征函数论文; 中文句法分析论文; 加权上论文; 下文无关文法模型论文;