论文摘要
国家语言资源监测与研究是一个全新的课题。本论文主要根据国家语言资源监测与研究中心平面媒体分中心的相关监测实践,对中文资源的监测进行了系统研究,总结出语言资源监测与研究主要包括两方面的工作,一是语言资源建设;二是研制开发用于语言资源监测与研究的软件工具。本文围绕这两个方面展开论述,所涉及的内容主要包括以下几个方面:首先,对语言资源监测与研究的发展现状及目前国内外对语言资源进行监测和研究的水平进行了宏观分析。分国际和国内两大部分。国际方面主要介绍了监控语料库的发展情况,并分析了它与语言资源监测的关系;国内方面主要介绍了动态流通语料库及动态语言知识更新理论,还有就是国家语言资源监测与研究中心的情况。以此为背景,确定了本文的研究目标是设计一套用于辅助语言资源建设和语言资源监测与研究的软件工具包的架构,并根据现在的需求实现部分功能。其次,在确定了研究目标以后,第三章论述了该软件工具包的主要功能,并以此为基础,完成了该软件工具包的架构设计。该软件工具包的主要功能包括辅助语言资源建设功能和辅助语言资源监测与研究功能。从架构来看,主要由辅助语言资源建设模块、语言资源索引模块和辅助语言资源监测与研究模块三部分构成。此外还介绍了该软件工具包的开发环境、开发基础、主要特色等。再次,第四章主要是根据功能分析和架构设计,完成该软件包部分功能的开发。主要包括语料预处理、语言资源标注、语言资源深加工、语言资源索引等。其中最重要的是语言资源标注和语言资源索引这两个子模块的开发。以DC核心集为基础确定了一套语言资源标注基本集,并结合资源描述框架,用XML语言对语言资源进行标注。索引模块调用了一个开源的索引库——DotLucene,对标注好的语言资源建立索引,为监测与研究做好准备。最后,第五章主要完成了监测模块的开发,还介绍了该软件包在实际项目中的使用情况。第六章是总结整个研究情况,包括具体的研究成果,对语言资源监测与研究的支持等。并对进一步的研究工进行了规划。
论文目录
摘要ABSTRACT第一章:前言1.1 选题背景及意义1.1.1 选题缘由1.1.2 研究对象和目的1.1.3 研究方法1.1.4 研究的主要意义1.2 本文的内容安排第二章:语言资源监测与研究分析2.1 国际上对语言监测的相关研究2.1.1 监控语料库与语言监测2.1.2 全球语言监测机构(The Global Language Monitor)1. 全球语言监测机构简介2. GLM 的监测方法—PQI3. GLM 所取得的主要成果2.2 国内对语言资源监测的相关研究2.2.1 动态流通语料库(DCC)研究现状2.2.1.1 前计算机时代的语料库2.2.1.2 计算机早期时代的语料库2.2.1.3 大规模计算机语料库2.2.1.4 我国语料库建设历史和现状分析2.2.1.5 动态流通语料库的理论基础2.2.1.6 流通度理论2.2.1.7 动态流通语料库2.2.2 语言资源监测与研究现状2.2.3 动态流通语料库和语言资源监测的关系2.3 语言资源监测与研究现阶段的主要任务第三章:软件包功能分析及架构设计3.1 软件包功能分析3.1.1 软件包的处理对象3.1.2 辅助语言资源建设功能3.1.3 辅助语言资源监测与研究功能3.2 软件包架构设计3.2.1 辅助语言资源建设模块设计3.2.2 基于DotLucene 的语言资源索引模块设计3.2.2.1 DotLucene 简介3.2.2.2 索引模块的工作流程3.2.3 辅助语言资源监测与研究模块设计3.2.4 该软件包的主要特色3.2.5 软件包开发环境及现有开发基础3.2.5.1 开发环境及相关技术3.2.5.2 现有开发基础第四章:语言资源建设辅助模块开发4.1 语言资源的获得及整理4.1.1 原始语言资源的获得4.1.2 整理原始语料4.2 语言资源的半结构化标注4.2.1 XML 语言及其在语料库标注上的应用4.2.1.1 XML 语言4.2.1.2 XML 在语料库标注上的应用4.2.2 资源描述框架(RDF)4.2.3 DC 元数据集4.2.4 基于DC 元数据集的平面媒体语言资源标记集4.3 语言资源的半结构化标注功能开发4.4 语言资源深化加工功能开发4.4.1 自动加工功能4.4.2 辅助人工加工功能4.5 基于DOTLUCENE 语言资源索引模块的实现4.5.1 对语料进行索引4.5.2 增量索引4.5.3 删除索引中的某些文件第五章:平面媒体语言资源监测模块开发及实际应用5.1 字词相关度量的统计5.1.1 统计出现次数和文本数功能的实现5.1.2 以次数和文本数为基础进行相关统计5.2 数据表之间的对比研究5.3 软件包的实际使用5.3.1 在流行语项目中的应用5.3.2 在语言社会生活调查项目中的应用第六章:总结6.1 对目前工作的总结6.2 需要改进的地方参考文献致谢
相关论文文献
标签:语言资源论文; 语言资源监测论文; 动态语言知识更新论文; 动态流通语料库论文;