基于Web的双语资源信息抽取研究

基于Web的双语资源信息抽取研究

论文摘要

在信息爆炸的现代社会,要从浩如烟海的文献、资源中找到真正需要且有价值的内容,是一个重要的课题。为了解决这一课题,信息检索、信息抽取等技术的研究成为当前的热点方向。信息检索能够找出满足一定检索条件的所有的文档,而人们仍需阅读所找到的每一个段落才能获得所需要的信息;而信息抽取是一种直接从自然语言文本中抽取事实的方法,即从一段文本中抽取指定的一类信息,将其形成结构化的数据,并填入一个数据库中供用户查询使用。为某一个或多个应用而专门收集的、有一定结构的、可被计算机程序检索的、具有一定规模的语料的集合称之为语料库。因特网的发展使信息传播的领域从真实世界拓展到网络空间,各种类型的数字化语言材料,包括双语对照的材料,都更容易获得。这为进行信息抽取实验创造了更好的条件。本文通过构建完整的下载、加工、抽取过程来研究如何从因特网的双语文本中抽取有价值的信息。主要工作包括:收集资源是进行信息抽取的前提条件,在这一阶段,讨论在因特网上定位和识别双语语料的方法,分析并获取某个站点检索程序的结构,对于没有提供检索功能的站点,利用爬行程序链接下载。将网页中的动态数据区域与正文部分相区分,给出基于分块的网页正文信息抽取算法,将网页中包含的噪音内容,如导航链接及商业广告链接等尽量屏蔽掉。在版权许可的情况下,储存两种语言的网页资料,使之成为双语平行的语料资源。在加工形成的双语语料中,进行知识抽取。介绍并分析抽取词汇表、术语的算法以及抽取翻译模板的方法。最后总结全文并展望今后进一步的工作。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 语料库的定义与应用
  • 1.1.1 语料库的定义和分类
  • 1.1.2 双语平行语料库
  • 1.2 信息抽取研究的背景
  • 1.2.1 信息抽取的历史与现状
  • 1.2.2 信息抽取与信息检索的区别
  • 1.3 本文讨论的主要问题
  • 第二章 因特网语料下载分析及噪音过滤
  • 2.1 语料下载程序
  • 2.1.1 语料下载程序的设计思想
  • 2.1.2 语料下载程序的关键步骤
  • 2.2 网页分析程序
  • 2.2.1 HTML 网页解析
  • 2.2.2 网页对象识别方法
  • 2.3 基于分块的网页正文信息抽取算法
  • 2.3.1 网页噪声分析
  • 2.3.2 分块算法描述
  • 2.4 本章小结
  • 第三章 双语资源的导入、整理和加工
  • 3.1 语料样本的著作权
  • 3.2 语料数据导入
  • 3.3 对齐与分词处理
  • 3.3.1 句子对齐
  • 3.3.2 句子分词
  • 3.4 实例分析
  • 3.4.1 双语网页对齐
  • 3.4.2 中文分词功能的实现
  • 3.5 本章小结
  • 第四章 信息抽取系统的实现与评价
  • 4.1 信息抽取系统的功能模块
  • 4.2 信息抽取关键技术的实现
  • 4.2.1 命名实体识别模块
  • 4.2.2 句法分析模块
  • 4.2.3 篇章分析与推理模块
  • 4.2.4 知识获取模块
  • 4.2.5 分装器设计与实现
  • 4.3 评价信息抽取系统
  • 4.3.1 应用 MUC 评价体系
  • 4.3.2 应用 ACE 评价体系
  • 4.4 信息抽取算法的研究
  • 4.5 本章小结
  • 第五章 WEB信息抽取的应用
  • 5.1 抽取双语词汇与术语定义
  • 5.1.1 识别可能的词对
  • 5.1.2 抽取术语:识别多词等价形式
  • 5.2 抽取翻译模板
  • 5.2.1 翻译模板的定义
  • 5.2.2 模板生成
  • 5.2.3 过滤
  • 5.2.4 评分和选取
  • 5.3 本章小结
  • 第六章 总结与展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].少数民族地区数学双语师范生信息素养现状及建议[J]. 开封教育学院学报 2019(11)
    • [2].全媒体时代民族地区双语播音人才培养探析——以内蒙古地区为例[J]. 职业技术教育 2019(35)
    • [3].改革开放40年我国少数民族双语教育研究热点、历史过程与展望[J]. 信阳师范学院学报(哲学社会科学版) 2020(01)
    • [4].2003年-2018年广西双语教育研究统计分析——基于知网数据的[J]. 广西民族师范学院学报 2019(06)
    • [5].珠海公共设施双语覆盖现状研究[J]. 文化学刊 2020(01)
    • [6].秘鲁双语教育的历史与现状问题研究[J]. 江苏师范大学学报(哲学社会科学版) 2020(01)
    • [7].基于国家政策导向的延边州双语教育发展改革研究[J]. 文化创新比较研究 2020(05)
    • [8].论民族地区学前双语教育目标理论与实践[J]. 教育观察 2020(04)
    • [9].双语经验对老年人认知能力的促进[J]. 区域治理 2020(03)
    • [10].“福丫头”双语绘本读物系列出版[J]. 国际汉语教育(中英文) 2020(01)
    • [11].国外双语教育理论研究及对我国双语教育的启示[J]. 民族高等教育研究 2020(01)
    • [12].语言经济学视角下广西壮汉双语教育的保护与发展[J]. 知识经济 2020(06)
    • [13].高校“英、韩双语”专业学生学习与就业概况分析[J]. 就业与保障 2020(02)
    • [14].蒙汉双语教育发展策略研究[J]. 内蒙古财经大学学报 2020(02)
    • [15].双语教育对比研究及其在中国的应用策略[J]. 教育现代化 2020(25)
    • [16].国家安全视域下的民汉双语教育[J]. 贵州民族研究 2020(05)
    • [17].香港理工大学人文学院中文及双语学系[J]. 公关世界 2020(12)
    • [18].中英双语丛书《你好,福建》荣获中宣部地方优秀外宣作品一等奖[J]. 福州大学学报(哲学社会科学版) 2020(03)
    • [19].嫩江流域少数民族基础教育双语教育研究[J]. 黑龙江民族丛刊 2020(01)
    • [20].民族地区双语数字化学校资源平台的构建[J]. 延边教育学院学报 2020(02)
    • [21].新时代民族地区要坚持依法稳妥推行双语教育——兼评《中国民族教育发展报告(2015—2018)·现实与前瞻:民族地区双语教育研究》[J]. 民族教育研究 2020(04)
    • [22].卡明斯双语教育理论解析及其在中国语境中的再审视[J]. 民族教育研究 2020(04)
    • [23].“一带一路”视域下发展少数民族地区双语教育的策略研究[J]. 科教文汇(中旬刊) 2020(07)
    • [24].藏族地区双语类学校一体化办学存在的问题及对策[J]. 科学咨询(教育科研) 2020(09)
    • [25].化工类少数民族双语生学业水平调查与提高对策——以新疆大学化学化工学院为例[J]. 广东化工 2020(17)
    • [26].中英双语播音专业英语课程设置及教学的定位与思考[J]. 科教导刊(上旬刊) 2020(08)
    • [27].延边州双语教育现状分析与对策研究[J]. 现代交际 2020(16)
    • [28].高校双语混合式教学法的“三大瓶颈”及其对策[J]. 产业与科技论坛 2019(19)
    • [29].我国少数民族实现双语的两大指标[J]. 贵州民族研究 2017(12)
    • [30].中西方双语教育的异同[J]. 林区教学 2016(11)

    标签:;  ;  ;  ;  

    基于Web的双语资源信息抽取研究
    下载Doc文档

    猜你喜欢