面向中文信息处理的复句特征分析器的研究与实现

论文摘要

中文信息处理作为一门与计算机科学、语言学、数学、信息学和声学多门学科相结合的交叉型学科,随着Internet的普及和信息处理技术的发展,近年来得到快速的发展。中文信息处理,对于汉语的信息处理包括字处理,词处理,句处理及篇章处理。但由于汉语的特殊性和复杂性,到目前为止,大部分的研究都只停留在“字和词的处理”阶段,对于汉语句子尤其是复句的处理进展非常缓慢。本文研究的复句特征分析器是复句工程中关系词自动标记系统的一个核心部分,主要负责对汉语复句的基本特征的抽取。复句特征分析器主要有七个功能模块：1句子结构相似计算,2句法成分分析,3字符串匹配,4词性标注,5分句标记和跨度计算,6语义关联度计算,7关系词处理。本文对复句特征分析器的若干关键技术进行了研究及探索：1、提出一种新型的汉语句子相似算法。这是一种基于汉语句子词类串的结构相似算法,它结合词类间的关联度寻找两个句子对应词类串的最长匹配串。2、提出一种分句标记的算法。该算法基本思想：根据实用高效的合并原则,将关联词单独成句,句子成分单独成句等独立分句归到相邻分句中,进而实现分句的合理标记。3、提出一种基于依存句法的句子成分分析算法。该算法利用句法成分分析的规则：谓核识别机制,主干识别机制,修饰成分识别机制和并列成分识别机制,对汉语复句进行语义分句的划分,每个语义分句主谓宾的划分,以及核心词,修饰成分和并列成分的划分。

论文目录

摘要

Abstract

第一章绪论

1.1 论文的研究背景及意义

1.2 句法分析研究现状

1.2.1 基于依存句法的语言技术平台

1.2.2 HNC（概念层次网络理论）

1.2.3 北大的句法树库

1.3 语义分析研究现状

1.4 论文的组织结构

第二章相关技术和方法

2.1 字符串模式匹配算法

2.1.1 朴素字符串匹配算法（BruteForce算法）

2.1.2 KMP算法

2.2 依存句法分析技术

2.2.1 依存句法简介

2.2.2 依存句法的各种分析方法比较

2.3 汉语句子相似度计算方法

2.3.1 基于词义距离的句子相似度计算

2.3.2 基于向量空间模型VSM的句子相似度计算

2.3.3 基于关键词语义的句子相似度计算

2.4 本章小结

第三章复句特征分析器中核心技术的研究

3.1 复句特征分析器框架图

3.2 句子结构相似

3.2.1 小句结构相似算法描述

3.2.2 举例说明

3.3 复句的分句标记

3.4 基于依存句法的句子成分分析算法

3.4.1 句子依存关系的形式化表示

3.4.2 句法成分分析核心算法

3.4.3 修饰成分抽取算法

3.4.4 并列成分抽取算法

3.5 本章小结

第四章实验结果及分析

4.1 句法成分分析实验结果及分析

4.2 其他实验结果及分析

第五章总结和展望

5.1 全文总结

5.2 进一步的研究工作

参考文献

校期间参加的科研项目和发表的论文

致谢

面向中文信息处理的复句特征分析器的研究与实现

论文摘要

论文目录

相关论文文献