基于Web论文库的学术领域双语资源研究

基于Web论文库的学术领域双语资源研究

论文摘要

双语资源在计算语言学研究领域具有十分特殊的地位,对机器翻译、双语词典编纂、术语抽取、跨语言信息检索等研究和应用提供了有力的支持。对双语资源的研究面临着如下三个问题:如何获取双语资源?如何对双语资源进行加工处理?如何使用双语资源构建应用?本文基于学术领域双语资源对这三个问题进行了探讨和解决。基于Web论文库获取学术领域双语资源是一种自然而然的方法。本文设计并实现了Web论文库爬行器,对Web论文库进行增量爬行,高效地获取学术领域双语资源,从而构建动态更新的学术领域双语资源库。接着探讨了如何在获取到的学术领域双语资源库上进行句子对齐处理。本文实现了经典的基于统计的句子对齐算法,并对算法进行了一系列改进,包括断句不采用冒号为边界、选用更好的句对评价函数、结合学术领域双语资源自有的关键字信息、增加处理的匹配模式等,显著地提高了句子对齐算法的准确率和召回率。经过句子对齐处理的学术领域双语资源库采用xml文件的格式组织存储。最后,本文尝试在学术领域双语资源库上构建基于短语的统计机器翻译系统,证实了学术领域双语资源的可用性。基于Web论文库的学术领域双语资源研究,对双语资源的获取、加工处理以及应用这三个问题的解决提供了一个新的思路。如何更好地解决这三个问题将是下一步的研究方向。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 双语资源研究背景及意义
  • 1.1.1 研究背景
  • 1.1.2 研究意义
  • 1.2 双语资源研究现状
  • 1.2.1 语料库语言学
  • 1.2.2 双语语料库
  • 1.2.3 双语对齐技术
  • 1.2.4 基于语料库的机器翻译
  • 1.3 本文研究内容及论文结构
  • 第二章 基于统计的机器翻译介绍
  • 2.1 基于噪声信道模型的统计机器翻译
  • 2.1.1 N-gram 语言模型
  • 2.1.2 IBM 翻译模型
  • 2.1.3 解码器
  • 2.2 基于最大熵模型的统计机器翻译
  • 2.3 噪声信道模型与最大熵模型的比较
  • 2.4 本章小结
  • 第三章 获取学术领域双语资源
  • 3.1 网络爬行器
  • 3.1.1 HTTP 协议
  • 3.1.2 REP 协议
  • 3.1.3 爬行器搜索策略
  • 3.1.4 爬行器基本流程
  • 3.2 双语资源获取
  • 3.2.1 网页获取
  • 3.2.2 网页解析
  • 3.2.3 Web 论文库爬行器
  • 3.2.4 爬行结果
  • 3.3 本章小结
  • 第四章 学术领域双语资源对齐处理
  • 4.1 基于统计的句子对齐
  • 4.1.1 基于统计的句子对齐算法介绍
  • 4.1.2 基于统计的句子对齐具体实现
  • 4.1.3 句子对齐评价方式
  • 4.1.4 基于统计的句子对齐实验结果及评价
  • 4.1.5 实验的两点改进
  • 4.2 结合关键字的统计句子对齐
  • 4.2.1 结合关键字的统计句子对齐算法
  • 4.2.2 结合关键字的统计句子对齐实验结果
  • 4.3 对未处理匹配模式的处理
  • 4.4 学术领域双语资源库的句子对齐处理结果
  • 4.5 本章小结
  • 第五章 双语资源在统计机器翻译中的应用研究
  • 5.1 基于短语的汉英统计机器翻译
  • 5.2 词语对齐
  • 5.3 短语抽取
  • 5.4 语言模型训练及应用
  • 5.5 解码
  • 5.6 本章小结
  • 第六章 总结与展望
  • 参考文献
  • 发表论文和科研情况说明
  • 致谢
  • 相关论文文献

    • [1].少数民族地区数学双语师范生信息素养现状及建议[J]. 开封教育学院学报 2019(11)
    • [2].全媒体时代民族地区双语播音人才培养探析——以内蒙古地区为例[J]. 职业技术教育 2019(35)
    • [3].改革开放40年我国少数民族双语教育研究热点、历史过程与展望[J]. 信阳师范学院学报(哲学社会科学版) 2020(01)
    • [4].2003年-2018年广西双语教育研究统计分析——基于知网数据的[J]. 广西民族师范学院学报 2019(06)
    • [5].珠海公共设施双语覆盖现状研究[J]. 文化学刊 2020(01)
    • [6].秘鲁双语教育的历史与现状问题研究[J]. 江苏师范大学学报(哲学社会科学版) 2020(01)
    • [7].基于国家政策导向的延边州双语教育发展改革研究[J]. 文化创新比较研究 2020(05)
    • [8].论民族地区学前双语教育目标理论与实践[J]. 教育观察 2020(04)
    • [9].双语经验对老年人认知能力的促进[J]. 区域治理 2020(03)
    • [10].“福丫头”双语绘本读物系列出版[J]. 国际汉语教育(中英文) 2020(01)
    • [11].国外双语教育理论研究及对我国双语教育的启示[J]. 民族高等教育研究 2020(01)
    • [12].语言经济学视角下广西壮汉双语教育的保护与发展[J]. 知识经济 2020(06)
    • [13].高校“英、韩双语”专业学生学习与就业概况分析[J]. 就业与保障 2020(02)
    • [14].蒙汉双语教育发展策略研究[J]. 内蒙古财经大学学报 2020(02)
    • [15].双语教育对比研究及其在中国的应用策略[J]. 教育现代化 2020(25)
    • [16].国家安全视域下的民汉双语教育[J]. 贵州民族研究 2020(05)
    • [17].香港理工大学人文学院中文及双语学系[J]. 公关世界 2020(12)
    • [18].中英双语丛书《你好,福建》荣获中宣部地方优秀外宣作品一等奖[J]. 福州大学学报(哲学社会科学版) 2020(03)
    • [19].嫩江流域少数民族基础教育双语教育研究[J]. 黑龙江民族丛刊 2020(01)
    • [20].民族地区双语数字化学校资源平台的构建[J]. 延边教育学院学报 2020(02)
    • [21].新时代民族地区要坚持依法稳妥推行双语教育——兼评《中国民族教育发展报告(2015—2018)·现实与前瞻:民族地区双语教育研究》[J]. 民族教育研究 2020(04)
    • [22].卡明斯双语教育理论解析及其在中国语境中的再审视[J]. 民族教育研究 2020(04)
    • [23].“一带一路”视域下发展少数民族地区双语教育的策略研究[J]. 科教文汇(中旬刊) 2020(07)
    • [24].藏族地区双语类学校一体化办学存在的问题及对策[J]. 科学咨询(教育科研) 2020(09)
    • [25].化工类少数民族双语生学业水平调查与提高对策——以新疆大学化学化工学院为例[J]. 广东化工 2020(17)
    • [26].中英双语播音专业英语课程设置及教学的定位与思考[J]. 科教导刊(上旬刊) 2020(08)
    • [27].延边州双语教育现状分析与对策研究[J]. 现代交际 2020(16)
    • [28].新中国少数民族双语教育的主要实践和历史经验[J]. 公关世界 2020(20)
    • [29].高校双语混合式教学法的“三大瓶颈”及其对策[J]. 产业与科技论坛 2019(19)
    • [30].我国少数民族实现双语的两大指标[J]. 贵州民族研究 2017(12)

    标签:;  ;  ;  ;  

    基于Web论文库的学术领域双语资源研究
    下载Doc文档

    猜你喜欢