面向辅助写作的英汉例句检索系统的设计与实现

面向辅助写作的英汉例句检索系统的设计与实现

论文摘要

非英语为母语的人们在用英文写作的时候,经常会遇到一个句子不知道怎么说,或者一个意思不知如何表达的情况。目前的机器翻译系统由于准确率太低,翻译结果不通顺而很难实际应用;在线词典系统由于只能以单词为单位进行检索,对于整句的查找没有什么帮助。英汉例句检索系统通过让用户输入母语句子,系统查找意思最相近的英文例句的方式,帮助人们解决英文写作过程中遇到的困难。虽然检索得到的例句与用户输入的母语句子不完全相同,但用户可以利用人类的智慧,举一反三的找到需要的英文表达。英汉例句检索系统的核心是一个例句搜索引擎。与网页搜索引擎不同的是,例句检索系统首先对用户查询进行同义词扩展,对扩展后得到的查询进行初步检索,然后采用改进编辑距离的方法计算每个初步检索结果与用户查询之间的相似程度,返回相似程度最高的若干个结果。英汉例句检索系统使用了一个包含50万中英英汉例句对的例句库。为了得到每个中文单词具体与哪个英文单词互为对应,对50万中英句对进行了自动单词对齐处理。系统直接使用了著名的词对齐系统——GIZA++作为预处理系统。针对GIZA++只能得到一对一或者一对多的对齐结果的弱点,通过“中到英”和“英到中”双向对齐结果的融合,获得了多对多的对齐,同时还把对齐错误率降低到了23.3%。对于用户输入的查询,系统通过计算各个单词之间二元语言模型的概率,找到最高频的单词组合,并作为查询提示返回给用户。由于系统使用的技术与具体的语言相关性不高,所以只要拥有足够的语料资源,可以很容易的移植到其他语言平台上。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题背景
  • 1.2 机器翻译的研究现状
  • 1.2.1 机器翻译的发展
  • 1.2.2 机器翻译的应用
  • 1.3 句子检索的研究现状
  • 1.3.1 基于向量空间模型的TF*IDF方法
  • 1.3.2 基于语义依存的句子相似度计算方法
  • 1.4 论文的主要工作
  • 第二章 系统相关方法
  • 2.1 机器翻译方法
  • 2.1.1 基于语言规则的机器翻译
  • 2.1.2 基于语料库的机器翻译
  • 2.2 N元语言模型
  • 2.2.1 语言模型概述
  • 2.2.2 参数估计
  • 2.2.3 参数平滑
  • 2.3 本章小结
  • 第三章 例句检索关键技术
  • 3.1 单词对齐
  • 3.1.1 单词对齐的意义
  • 3.1.2 单词对齐方法
  • 3.2 相似句子检索
  • 3.2.1 引入编辑距离计算句子相似度
  • 3.2.2 候选句子粗匹配
  • 3.2.3 语义相似度计算
  • 3.3 反暴力取词技术
  • 3.3.1 IP封堵法
  • 3.3.2 垃圾信息法
  • 3.4 本章小结
  • 第四章 例句检索系统的分析与设计
  • 4.1 需求分析
  • 4.2 系统功能设计
  • 4.2.1 建立索引
  • 4.2.2 例句检索
  • 4.2.3 短语查询提示
  • 4.2.4 短语翻译
  • 4.3 系统结构设计
  • 4.3.1 整体结构
  • 4.3.2 例句加工
  • 4.3.3 非法查询检测
  • 4.3.4 例句检索
  • 4.4 系统的信息描述
  • 4.4.1 PAD图元素的提取
  • 4.4.2 PAD图的绘制
  • 4.5 本章小结
  • 第五章 例句检索系统的实现
  • 5.1 系统整体实现
  • 5.2 例句加工模块的实现
  • 5.2.1 中文分词的实现
  • 5.2.2 例句的去重与过滤
  • 5.2.3 单词对齐的实现
  • 5.3 非法查询检测模块的实现
  • 5.3.1 暴力取词检测
  • 5.3.2 敏感关键字检测
  • 5.4 例句检索模块的实现
  • 5.4.1 索引结构
  • 5.4.2 检索服务流程
  • 5.5 系统运行界面
  • 5.6 本章小结
  • 第六章 系统测试与分析
  • 6.1 词对齐测试
  • 6.2 检索速度测试
  • 6.3 相似句子检索测试
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    面向辅助写作的英汉例句检索系统的设计与实现
    下载Doc文档

    猜你喜欢