
论文摘要
改写是自然语言中比较普遍的一个现象,它集中反映了语言的多样性。改写研究的对象主要是短语或者句子的同义现象。自然语言处理各种底层技术的不断发展和成熟,为改写研究提高了可能,使之受到越来越多的关注。在英文和日文方面,改写技术已经被成功的应用到信息检索、自动问答、信息抽取、自动文摘以及机器翻译等多个领域,有效地提高了这些系统的性能。在口语自动翻译系统中,当翻译引擎无法对输入语句(utterance)进行正确理解和翻译时,如果系统能够自动提供输入语句其它可能的表达方式,无疑将提高系统翻译的正确率。本文介绍了汉语语句自动改写的方法,在方法中,利用多种方法将输入的语句分解成短语结构,依存语块等。然后提取输入语句的主要特征,包括语句类型,时态,句法成分等并将提取的结果用框架表示,最后根据解析结果利用语言生成技术实现输入语句的自动改写。模板的抽取与匹配算法是基于模板的改写方法的核心问题。本文首先在模板抽取过程中对改写实例进行浅层句法分析,根据分析结果得到介词短语模板、实例主架模板以及组块模板。接下来为每类模板确定一个中心词,利用索引中心词方式进行各类别模板的独立存储、索引关联,并进一步构建系统模板库。模板匹配过程中首先对大量输入句抽取模板,然后从系统模板库中检索匹配模板。检索过程中综合模板的语义信息和结构信息,不但要保证模板主架结构相似,还要进行语义信息的匹配。匹配时以模板中心词作为静态阈值,相似度得分和模板距离作为动态阈值分别判断模板是否相似,该方法取得了较好的实验结果。
论文目录
摘要Abstract第1章 绪论1.1 引言1.2 研究目的和意义1.3 国内外相关领域研究现状1.4 研究内容1.5 本文的组织结构第2章 语句改写方法综述2.1 基于规则的改写方法2.2 基于实例的方法2.3 语言生成模型2.3.1 基于中间语言的生成方法2.3.2 基于排列优先生成方法2.4 完全分析方法和浅层分析方法2.5 本文基于模板的改写方法第3章 汉语语句改写技术基础3.1 自然语言处理3.1.1 自然语言处理技术简介3.1.2 自然语言处理技术的主要应用3.2 汉语自动分词基本算法3.2.1 基于规则的分词算法3.2.2 基于统计的分词算法3.2.3 统计和规则相结合的分词算法3.3 句子相似度的概念及传统计算方法3.3.1 句子相似度的概念3.3.2 基于向量空间模型的TF-IDF 方法3.3.3 基于汉明距离的文本相似度计算方法3.4 本文的相似度计算模型3.4.1 阈值选择3.4.2 主架结构的相似度计算3.5 模式匹配技术3.5.1 模式匹配的概念3.5.2 模式匹配的分类3.5.3 模式匹配的方法第4章 改写系统模板库的构筑学习与检索4.1 系统模板库的构筑4.1.1 系统模板库的框架设计4.1.2 系统模板库的组织4.2 改写模板的抽取4.2.1 改写语句对的抽取4.2.2 改写语句对的模板化4.2.3 改写模板的半自动化4.3 系统模板库的自动学习4.4 系统模板库的检索4.5 改写模板的抽取与匹配实验结果分析4.5.1 实验语料4.5.2 模板匹配实验结果4.5.3 错误分析第5章 汉语语句改写系统的具体实现5.1 系统整体结构5.2 改写系统的模块定义5.3 系统部分模块的实现5.3.1 预处理模块5.3.2 模板处理模块5.3.3 语料库处理模块5.4 基于模板的改写系统的工作流程5.5 改写过程的具体实现5.5.1 倒装句的改写5.5.2 疑问句的改写5.5.3 同义词短语的改写5.5.4 利用框架主属性值改写语句5.6 改写实验与实验结果考察5.6.1 句法成分分析器测试情况5.6.2 系统改写生成情况第6章 结论参考文献致谢
相关论文文献
标签:语句改写论文; 模板抽取论文; 模板匹配论文; 改写生成论文;