平面媒体语言资源监测软件包开发及应用

平面媒体语言资源监测软件包开发及应用

论文摘要

国家语言资源监测与研究是一个全新的课题。本论文主要根据国家语言资源监测与研究中心平面媒体分中心的相关监测实践,对中文资源的监测进行了系统研究,总结出语言资源监测与研究主要包括两方面的工作,一是语言资源建设;二是研制开发用于语言资源监测与研究的软件工具。本文围绕这两个方面展开论述,所涉及的内容主要包括以下几个方面:首先,对语言资源监测与研究的发展现状及目前国内外对语言资源进行监测和研究的水平进行了宏观分析。分国际和国内两大部分。国际方面主要介绍了监控语料库的发展情况,并分析了它与语言资源监测的关系;国内方面主要介绍了动态流通语料库及动态语言知识更新理论,还有就是国家语言资源监测与研究中心的情况。以此为背景,确定了本文的研究目标是设计一套用于辅助语言资源建设和语言资源监测与研究的软件工具包的架构,并根据现在的需求实现部分功能。其次,在确定了研究目标以后,第三章论述了该软件工具包的主要功能,并以此为基础,完成了该软件工具包的架构设计。该软件工具包的主要功能包括辅助语言资源建设功能和辅助语言资源监测与研究功能。从架构来看,主要由辅助语言资源建设模块、语言资源索引模块和辅助语言资源监测与研究模块三部分构成。此外还介绍了该软件工具包的开发环境、开发基础、主要特色等。再次,第四章主要是根据功能分析和架构设计,完成该软件包部分功能的开发。主要包括语料预处理、语言资源标注、语言资源深加工、语言资源索引等。其中最重要的是语言资源标注和语言资源索引这两个子模块的开发。以DC核心集为基础确定了一套语言资源标注基本集,并结合资源描述框架,用XML语言对语言资源进行标注。索引模块调用了一个开源的索引库——DotLucene,对标注好的语言资源建立索引,为监测与研究做好准备。最后,第五章主要完成了监测模块的开发,还介绍了该软件包在实际项目中的使用情况。第六章是总结整个研究情况,包括具体的研究成果,对语言资源监测与研究的支持等。并对进一步的研究工进行了规划。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章:前言
  • 1.1 选题背景及意义
  • 1.1.1 选题缘由
  • 1.1.2 研究对象和目的
  • 1.1.3 研究方法
  • 1.1.4 研究的主要意义
  • 1.2 本文的内容安排
  • 第二章:语言资源监测与研究分析
  • 2.1 国际上对语言监测的相关研究
  • 2.1.1 监控语料库与语言监测
  • 2.1.2 全球语言监测机构(The Global Language Monitor)
  • 1. 全球语言监测机构简介
  • 2. GLM 的监测方法—PQI
  • 3. GLM 所取得的主要成果
  • 2.2 国内对语言资源监测的相关研究
  • 2.2.1 动态流通语料库(DCC)研究现状
  • 2.2.1.1 前计算机时代的语料库
  • 2.2.1.2 计算机早期时代的语料库
  • 2.2.1.3 大规模计算机语料库
  • 2.2.1.4 我国语料库建设历史和现状分析
  • 2.2.1.5 动态流通语料库的理论基础
  • 2.2.1.6 流通度理论
  • 2.2.1.7 动态流通语料库
  • 2.2.2 语言资源监测与研究现状
  • 2.2.3 动态流通语料库和语言资源监测的关系
  • 2.3 语言资源监测与研究现阶段的主要任务
  • 第三章:软件包功能分析及架构设计
  • 3.1 软件包功能分析
  • 3.1.1 软件包的处理对象
  • 3.1.2 辅助语言资源建设功能
  • 3.1.3 辅助语言资源监测与研究功能
  • 3.2 软件包架构设计
  • 3.2.1 辅助语言资源建设模块设计
  • 3.2.2 基于DotLucene 的语言资源索引模块设计
  • 3.2.2.1 DotLucene 简介
  • 3.2.2.2 索引模块的工作流程
  • 3.2.3 辅助语言资源监测与研究模块设计
  • 3.2.4 该软件包的主要特色
  • 3.2.5 软件包开发环境及现有开发基础
  • 3.2.5.1 开发环境及相关技术
  • 3.2.5.2 现有开发基础
  • 第四章:语言资源建设辅助模块开发
  • 4.1 语言资源的获得及整理
  • 4.1.1 原始语言资源的获得
  • 4.1.2 整理原始语料
  • 4.2 语言资源的半结构化标注
  • 4.2.1 XML 语言及其在语料库标注上的应用
  • 4.2.1.1 XML 语言
  • 4.2.1.2 XML 在语料库标注上的应用
  • 4.2.2 资源描述框架(RDF)
  • 4.2.3 DC 元数据集
  • 4.2.4 基于DC 元数据集的平面媒体语言资源标记集
  • 4.3 语言资源的半结构化标注功能开发
  • 4.4 语言资源深化加工功能开发
  • 4.4.1 自动加工功能
  • 4.4.2 辅助人工加工功能
  • 4.5 基于DOTLUCENE 语言资源索引模块的实现
  • 4.5.1 对语料进行索引
  • 4.5.2 增量索引
  • 4.5.3 删除索引中的某些文件
  • 第五章:平面媒体语言资源监测模块开发及实际应用
  • 5.1 字词相关度量的统计
  • 5.1.1 统计出现次数和文本数功能的实现
  • 5.1.2 以次数和文本数为基础进行相关统计
  • 5.2 数据表之间的对比研究
  • 5.3 软件包的实际使用
  • 5.3.1 在流行语项目中的应用
  • 5.3.2 在语言社会生活调查项目中的应用
  • 第六章:总结
  • 6.1 对目前工作的总结
  • 6.2 需要改进的地方
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    平面媒体语言资源监测软件包开发及应用
    下载Doc文档

    猜你喜欢