论文摘要
非英语为母语的人们在用英文写作的时候,经常会遇到一个句子不知道怎么说,或者一个意思不知如何表达的情况。目前的机器翻译系统由于准确率太低,翻译结果不通顺而很难实际应用;在线词典系统由于只能以单词为单位进行检索,对于整句的查找没有什么帮助。英汉例句检索系统通过让用户输入母语句子,系统查找意思最相近的英文例句的方式,帮助人们解决英文写作过程中遇到的困难。虽然检索得到的例句与用户输入的母语句子不完全相同,但用户可以利用人类的智慧,举一反三的找到需要的英文表达。英汉例句检索系统的核心是一个例句搜索引擎。与网页搜索引擎不同的是,例句检索系统首先对用户查询进行同义词扩展,对扩展后得到的查询进行初步检索,然后采用改进编辑距离的方法计算每个初步检索结果与用户查询之间的相似程度,返回相似程度最高的若干个结果。英汉例句检索系统使用了一个包含50万中英英汉例句对的例句库。为了得到每个中文单词具体与哪个英文单词互为对应,对50万中英句对进行了自动单词对齐处理。系统直接使用了著名的词对齐系统——GIZA++作为预处理系统。针对GIZA++只能得到一对一或者一对多的对齐结果的弱点,通过“中到英”和“英到中”双向对齐结果的融合,获得了多对多的对齐,同时还把对齐错误率降低到了23.3%。对于用户输入的查询,系统通过计算各个单词之间二元语言模型的概率,找到最高频的单词组合,并作为查询提示返回给用户。由于系统使用的技术与具体的语言相关性不高,所以只要拥有足够的语料资源,可以很容易的移植到其他语言平台上。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题背景1.2 机器翻译的研究现状1.2.1 机器翻译的发展1.2.2 机器翻译的应用1.3 句子检索的研究现状1.3.1 基于向量空间模型的TF*IDF方法1.3.2 基于语义依存的句子相似度计算方法1.4 论文的主要工作第二章 系统相关方法2.1 机器翻译方法2.1.1 基于语言规则的机器翻译2.1.2 基于语料库的机器翻译2.2 N元语言模型2.2.1 语言模型概述2.2.2 参数估计2.2.3 参数平滑2.3 本章小结第三章 例句检索关键技术3.1 单词对齐3.1.1 单词对齐的意义3.1.2 单词对齐方法3.2 相似句子检索3.2.1 引入编辑距离计算句子相似度3.2.2 候选句子粗匹配3.2.3 语义相似度计算3.3 反暴力取词技术3.3.1 IP封堵法3.3.2 垃圾信息法3.4 本章小结第四章 例句检索系统的分析与设计4.1 需求分析4.2 系统功能设计4.2.1 建立索引4.2.2 例句检索4.2.3 短语查询提示4.2.4 短语翻译4.3 系统结构设计4.3.1 整体结构4.3.2 例句加工4.3.3 非法查询检测4.3.4 例句检索4.4 系统的信息描述4.4.1 PAD图元素的提取4.4.2 PAD图的绘制4.5 本章小结第五章 例句检索系统的实现5.1 系统整体实现5.2 例句加工模块的实现5.2.1 中文分词的实现5.2.2 例句的去重与过滤5.2.3 单词对齐的实现5.3 非法查询检测模块的实现5.3.1 暴力取词检测5.3.2 敏感关键字检测5.4 例句检索模块的实现5.4.1 索引结构5.4.2 检索服务流程5.5 系统运行界面5.6 本章小结第六章 系统测试与分析6.1 词对齐测试6.2 检索速度测试6.3 相似句子检索测试结论参考文献致谢
相关论文文献
标签:中英例句论文; 例句检索论文; 句子相似度论文; 改进编辑距离论文;