论文题目: 基于动态流通语料库(DCC)的汉语字母词语识别及考察研究
论文类型: 博士论文
论文专业: 语言学及应用语言学
作者: 郑泽芝
导师: 张普
关键词: 自然语言处理,动态流通语料库,字母词语,字母串
文献来源: 北京语言大学
发表年度: 2005
论文摘要: 字母词语是汉语中出现的一种新型外来语(如:WTO、CT、OA等)和构词形式(如:HSK、GB、3C等),目前,它们在汉语中的使用呈现飙升的趋势,而且一定程度上存在使用形式混乱,同一个概念两岸四地有多种表示,如不及时发现、收集和规范,势必影响科技信息的理解、交流和汉语汉字的信息化发展。在大规模真实文本中对字母词语进行考察分析的结果是国家语言文字管理部门制订规范的一个重要依据。 字母词语尤其是那些与汉字搭配组成专名、术语的字母词语,它们作为中文信息处理自动分词中的未登录词语,信息检索中的叙词,机器翻译中的翻译单位,自动分类、自动文摘、语音识别的关键词语和命名实体……,其正确识别与否,将直接影响到语言信息处理系统的召回率和准确率。 为此,我们基于北京语言大学应用语言学研究所的DCC动态流通语料库,选择2002年全年的《人民日报》《北京青年报》《羊城晚报》网络版文本,共1亿66万字的语料,建立了字母词语考察语料库。在此基础上,对字母词语的使用状况进行考察,并寻找一种快速有效的字母词语识别方法。 本文对字母词语的使用状况和字母词语的自动识别进行了较深入的分析和研究,取得了以下几项有特色的研究成果: (1) 提出了形式化的字母词语工程定义(ELWP~1)。这个定义从面向信息处理、面向字母词语考察的角度出发,对字母词语进行了工程界定(以下的字母词语均指ELWP),并通过字母词语自动提取系统和标注系统显示了该定义的可操作性。 (2) 通过对字母词语自身的特点和其出现的上下文语境的深入分析,提出了以字母串为中心的“中心扩展的规则+统计”的字母词语自动提取算法,并设计和实现了一个字母词语自动提取系统。实验结果表明该系统的正确率达到了82%左右。本系统还特别为字母词语双语对释的情况设计了编码系统,进行了专门的识别处理,从提取结果直接可以得到一批字母词语双语资源,目前已取得712条。 (3) 建立了56万字经人工校对的字母词语标注语料库,其语料可以用作字母词语自动识别和提取的训练语料与测试语料。 (4) 在自动提取规则集基础上,采用基于错误驱动的机器学习策略对已有规则
论文目录:
第一章 绪论
1.1 字母词语的界定
1.1.1 研究的目标
1.1.2 字母词语的界定
1.1.3 研究内容
1.2 论文研究的意义
1.2.1 字母词语研究对于词汇使用规范的意义
1.2.2 字母词语研究对于中文信息处理的意义
1.3 字母词语与汉语词汇
1.3.1 新词语、外来语与字母词语的关系
1.3.2 汉语系统对字母词语的接纳能力
1.4 相关文献综述
1.4.1 字母词语(字母词)的语言学方面研究综述
1.4.2 自然语言处理中自动提取和自动识别方法概述
1.5 本文的研究
1.6 论文的组织
第二章 ELWP自动识别的理论探讨
2.1 ELWP和术语、专名、基本名词短语的关系
2.1.1 ELWP与汉语普通词汇
2.1.2 ELWP与术语的关系
2.1.3 ELWP与专有名词的关系
2.1.4 ELWP和基本名词短语
2.2 ELWP和标点符号
2.3 字母串与汉字串搭配的分合问题
2.4 ELWP的语形不规范问题
2.5 ELWP边界歧义
2.6 字母串的合法性与ELWP之间的分割问题
2.7 ELWP一次性出现的原因
2.8 小结
第三章 ELWP的自动提取模型
3.1 语料的选择及知识的获取
3.1.1 DCC动态流通语料库
3.1.2 语料的选择标准
3.1.3 知识的获取
3.2 数据稀疏问题的处理
3.2.1 数据稀疏问题的一般处理方法
3.2.2 ELWP数据稀疏问题的处理策略
3.3 研究的步骤
3.3.1 字母词语的统计特征
3.4 ELWP自动提取的算法
3.4.1 自动提取流程图
3.4.2 字母串的处理
3.4.3 预切分处理
3.4.4 基于规则的ELWP提取算法
3.4.5 含成对标点的ELWP提取
3.4.6 基于统计的ELWP提取
3.5 实验结果
3.6 该模型的优缺点
3.7 ELWP辅助校对系统
3.7.1 校对系统的目标
3.7.2 字母词语辅助校对系统的设计与实现
3.8 小结
第四章 字母词语的自动标注模型
4.1 引言
4.2 采用错误驱动的学习方法获取字母词语识别的有关规则
4.2.1 学习方法的确定
4.2.2 本文的错误驱动算法
4.2.3 本文的错误驱动算法与基于变换的错误驱动算法比较
4.2.4 规则的获取
4.3 ELWP搭配概率矩阵的获取
4.3.1 几种抽词技术的分析
4.3.2 DP系数与搭配概率矩阵的获取
4.4 训练语料的标注
4.5 自动标注算法
4.6 实验及评测
4.6.1 规则的获取实验
4.6.2 自动标注ELWP实验及测试
4.6.3 自动标注算法的缺陷及改进
4.7 小结
第五章 ELWP概貌及统计分析
5.1 ELWP的划分
5.2 三种报纸ELWP的总体出现情况
5.3 ELWP的不同报纸的情况对比
5.3.1 《人民日报》中的ELWP
5.3.2 《北京青年报》中的ELWP
5.3.3 《羊城晚报》中的ELWP
5.3.4 各报纸共同出现ELWP的情况
5.3.5 小结
5.4 ELWP的组成成分及出现类型
5.4.1 ELWP中的组成成分
5.4.2 ELWP的出现类型
5.5 ELWP的来源分析
5.6 小结
第六章 ELWP专项考察
6.1 单字母ELWP考察
6.2 带汉字多字母ELWP考察
6.3 含数字ELWP考察
6.3.1 数字在字母前的情形
6.3.2 数字在字母后的情形
6.3.3 含数字ELWP之管见
6.4 ELWP双语同现现象
6.5 字母词语的并列结构
6.6 ELWP的标点符号使用情况分析
6.6.1 ELWP中的标点符号
6.6.2 ELWP中标点符号出现情况及问题
6.6.3 与标点相关问题的处理
6.6.4 小结
6.7 字母串光杆使用状况考察
6.7.1 字母串光杆使用状况
6.7.2 ELWP原文缩略和汉语拼音成词问题
6.8 字母词语的词性问题
6.9 ELWP不规范现象分析
6.10 小结
第七章 字母词语释义初探
7.1 引言
7.2 字母词语释义的原则探讨
7.3 字母词语释义模式的划分
7.4 “是”字结构的字母词语释义模式
7.5 字母词语释义自动提取的算法
7.6 实验结果分析
7.7 进一步的工作
第八章 结语
8.1 存在的问题
8.2 几点思考
8.3 余论:关于字母词语入典的量化计算的设想
参考文献
附录说明
附录1:字母词语校对标准
附录2:《人民日报》字母词语总表(5090条)样例
附录3:《北京青年报》字母词语总表(46400条)样例
附录4:《羊城晚报》字母词语总表(10580条)样例
附录5:《北京青年报》-《人民日报》差集字母词语表(45233条)样例
附录6:《人民日报》-《北京青年报》差集字母词语表(3923条)样例
附录7:《北京青年报》-《羊城晚报》差集字母词语表(44152条)样例
附录8:《羊城晚报》-《北京青年报》差集字母词语表(8332条)样例
附录9:《人民日报》-《羊城晚报》差集字母词语表(4423条)样例
附录10:《羊城晚报》-《人民日报》差集字母词语表(9913条)样例
附录11:《人民日报》∩《北京青年报》字母词语表(1167条)样例
附录12:《人民日报》∩《羊城晚报》字母词语表(667条)样例
附录13.《北京青年报》∩《羊城晚报》字母词语表(2248条)样例
附录14:《北京青年报》一次性出现字母词语表(33682条)样例
附录15:《人民日报》一次性出现字母词语表(4034条)样例
附录16:《羊城晚报》一次性出现字母词语表(7066条)样例
附录17:三种报纸交集字母词语表(544条)
附录18:《人民日报》单字母词语表(350条)样例
附录19:《人民日报》光杆字母词语(744条)样例
附录20:《人民日报》数字在前字母词语表(212条)样例
附录21:《人民日报》数字在后字母词语表(479条)样例
附录22:《人民日报》双语对照字母词语表(712条)样例
附录23:《人民日报》并列结构字母词语表(127条)
附录24:《北京青年报》散布数排前200位的字母词语(200条)样例
攻读博士学位期间发表的学术论文
致谢
发布时间: 2005-07-11
参考文献
- [1].基于动态流通语料库(DCC)的汉语熟语单位研究[D]. 杨建国.北京语言大学2005
- [2].基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D]. 谢学敏.北京语言大学2006
- [3].基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D]. 王强军.北京语言文化大学2003
- [4].基于DCC动态流通语料库的中文组织名考察与研究[D]. 陈慧.北京语言大学2008
相关论文
- [1].国别化“对外汉语教学用词表”制定的研究:以韩国为例[D]. 甘瑞瑗.北京语言大学2005
- [2].双语语料库与汉英词典词目翻译质量的进一步提高[D]. 李安兴.复旦大学2005