论文摘要
中文信息处理作为一门与计算机科学、语言学、数学、信息学和声学多门学科相结合的交叉型学科,随着Internet的普及和信息处理技术的发展,近年来得到快速的发展。中文信息处理,对于汉语的信息处理包括字处理,词处理,句处理及篇章处理。但由于汉语的特殊性和复杂性,到目前为止,大部分的研究都只停留在“字和词的处理”阶段,对于汉语句子尤其是复句的处理进展非常缓慢。本文研究的复句特征分析器是复句工程中关系词自动标记系统的一个核心部分,主要负责对汉语复句的基本特征的抽取。复句特征分析器主要有七个功能模块:1句子结构相似计算,2句法成分分析,3字符串匹配,4词性标注,5分句标记和跨度计算,6语义关联度计算,7关系词处理。本文对复句特征分析器的若干关键技术进行了研究及探索:1、提出一种新型的汉语句子相似算法。这是一种基于汉语句子词类串的结构相似算法,它结合词类间的关联度寻找两个句子对应词类串的最长匹配串。2、提出一种分句标记的算法。该算法基本思想:根据实用高效的合并原则,将关联词单独成句,句子成分单独成句等独立分句归到相邻分句中,进而实现分句的合理标记。3、提出一种基于依存句法的句子成分分析算法。该算法利用句法成分分析的规则:谓核识别机制,主干识别机制,修饰成分识别机制和并列成分识别机制,对汉语复句进行语义分句的划分,每个语义分句主谓宾的划分,以及核心词,修饰成分和并列成分的划分。
论文目录
摘要Abstract第一章 绪论1.1 论文的研究背景及意义1.2 句法分析研究现状1.2.1 基于依存句法的语言技术平台1.2.2 HNC(概念层次网络理论)1.2.3 北大的句法树库1.3 语义分析研究现状1.4 论文的组织结构第二章 相关技术和方法2.1 字符串模式匹配算法2.1.1 朴素字符串匹配算法(BruteForce算法)2.1.2 KMP算法2.2 依存句法分析技术2.2.1 依存句法简介2.2.2 依存句法的各种分析方法比较2.3 汉语句子相似度计算方法2.3.1 基于词义距离的句子相似度计算2.3.2 基于向量空间模型VSM的句子相似度计算2.3.3 基于关键词语义的句子相似度计算2.4 本章小结第三章 复句特征分析器中核心技术的研究3.1 复句特征分析器框架图3.2 句子结构相似3.2.1 小句结构相似算法描述3.2.2 举例说明3.3 复句的分句标记3.4 基于依存句法的句子成分分析算法3.4.1 句子依存关系的形式化表示3.4.2 句法成分分析核心算法3.4.3 修饰成分抽取算法3.4.4 并列成分抽取算法3.5 本章小结第四章 实验结果及分析4.1 句法成分分析实验结果及分析4.2 其他实验结果及分析第五章 总结和展望5.1 全文总结5.2 进一步的研究工作参考文献校期间参加的科研项目和发表的论文致谢
相关论文文献
标签:中文信息处理论文; 复句处理论文; 句子相似算法论文; 分句标记论文;