中文信息处理作为一门与计算机科学、语言学、数学、信息学和声学多门学科相结合的交叉型学科,随着Internet的普及和信息处理技术的发展,近年来得到快速的发展。中文信息处理,对于汉语的信息处理包括字处理,词处理,句处理及篇章处理。但由于汉语的特殊性和复杂性,到目前为止,大部分的研究都只停留在“字和词的处理”阶段,对于汉语句子尤其是复句的处理进展非常缓慢。本文研究的复句特征分析器是复句工程中关系词自动标记系统的一个核心部分,主要负责对汉语复句的基本特征的抽取。复句特征分析器主要有七个功能模块:1句子结构相似计算,2句法成分分析,3字符串匹配,4词性标注,5分句标记和跨度计算,6语义关联度计算,7关系词处理。本文对复句特征分析器的若干关键技术进行了研究及探索:1、提出一种新型的汉语句子相似算法。这是一种基于汉语句子词类串的结构相似算法,它结合词类间的关联度寻找两个句子对应词类串的最长匹配串。2、提出一种分句标记的算法。该算法基本思想:根据实用高效的合并原则,将关联词单独成句,句子成分单独成句等独立分句归到相邻分句中,进而实现分句的合理标记。3、提出一种基于依存句法的句子成分分析算法。该算法利用句法成分分析的规则:谓核识别机制,主干识别机制,修饰成分识别机制和并列成分识别机制,对汉语复句进行语义分句的划分,每个语义分句主谓宾的划分,以及核心词,修饰成分和并列成分的划分。
本文来源: https://www.lw50.cn/article/da1077a14b9fc503b757d232.html