基于语料库的词汇级知识挖掘研究

论文摘要

在数字化和网络化浪潮的逐步推动下,情报学、自然语言处理和文本挖掘的研究对象和任务正在悄然发生改变,这种改变主要表现在,从非结构化文本中来获取人们需要的知识成为一种趋势,而基于大规模语料从宏观整体层面来考察词汇的分布规律、挖掘语言网络内部的结构特征、利用语言网络结构来获取词汇之间的词义关系正是顺应这一研究趋势而开展的词汇级知识的探究。基于语料库的词汇级知识的挖掘和获取研究不仅有利于词汇知识组织、词典构建、信息检索等情报学研究的开展,还有助于词义消歧、机器翻译等自然语言处理任务的解决。基于多种研究方法和多组实验语料,本文立足于以中文为核心的信息处理,从词频分布、语言网络的宏观整体特征以及微观结构特征、词汇相似度计算和词义归纳四个层面进行了相应的知识挖掘和获取研究。在词频分布这一层次的研究中,利用最大似然估计的曲线拟合方法对中文和英文的词频分布进行了比较验证。在该部分,通过采用最大似然估计的方法对齐普夫定律的词频和概率分布进行了曲线拟合,计算得到了英文的齐普夫率在1.0左右,中文的齐普夫率在1.3左右;在分布曲线的拟合效果上,英文的齐普夫分布拟合效果要明显好于中文。针对两种语言词汇分布的差异,本文进一步对中英文语料中的高频词和低频词分布进行了统计,发现了中英文在词频分布曲线首尾存在差异的原因。在古汉语诗歌网络研究中,首先通过字共现关系构建了古汉语诗歌网络,然后从宏观整体层面和微观内部结构层面探究了古诗歌网络的整体特征以及内部结构特点。在宏观整体层面,发现古汉语诗歌网络是一种小世界网络并且呈现出了典型的无尺度特征。但和现代汉语已有的相关研究相比,其小世界性偏弱,凝聚性不够强。在微观结构层面,发现其最核心的k-核子图可以在一定程度上揭示作者的写作风格、性格特点以及当时社会因素。在相似词的挖掘和获取研究中,首先基于人民日报标注语料构建了现代汉语词共现语言网络,进而利用网络中节点相似的思想来计算词汇的相似度。基于词汇分布的假设,本文提出了在语言网络中基于贡献度折扣的词汇相似度方法,该方法不仅考虑了网络边的权重信息,还将节点的全局度特征融合进来。通过节点相似度实验发现,本文提出的基于贡献度折扣的相似度算法要明显好于共同邻居法、Jaccard方法和Salton方法。为了考证左右邻居节点对相似词挖掘的影响,本文进一步对名词和动词的入链邻居节点和出链邻居节点分别进行了探究,发现在名词的相似词获取任务中,出链邻居节点的贡献要高于入链邻居节点,在动词的相似词获取任务中,出链邻居节点的贡献要明显小于入链邻居节点。在词义归纳的研究中,利用专为复杂网络设计的图结构聚类算法,探究了基于大规模语料来获取汉语多义词词义的可行性。研究首先构建了针对每个目标词的子网络,然后利用图结构聚类算法通过多次迭代计算,最终确定多义词的词义簇。通过多组多义词的聚类实验结果,发现以复杂网络为组织工具,基于大规模语料来进行汉语的词义归纳的方法是可行。同时还发现基于数据驱动的词义归纳和语料特征密切相关,词义归纳的效果受到语料的内容、规模等因素的影响。

论文目录

摘要

Abstract

第1章引言

1.1 研究背景

1.2 研究意义

1.3 研究方法

1.4 研究思路和研究框架

1.5 论文结构

第2章相关研究综述

2.1 齐普夫定律相关研究概况

2.2 语言网络分类及相关研究进展

2.2.1 语言网络分类

2.2.2 语音网络

2.2.3 共现网络

2.2.4 依存句法网络

2.2.5 语义概念网络

2.2.6 其它语言网络

2.3 复杂网络中节点相似度研究综述

2.3.1 社会网络

2.3.2 链接预测

2.3.3 合作网络

2.3.4 引文网络

2.3.5 社区发现

2.3.6 词典自动构建

2.4 词义归纳和词义消歧的研究价值和现状综述

2.4.1 词义归纳和词义消歧的研究价值

2.4.2 词义消歧的分类

2.4.3 词义归纳现状综述

第3章基于最大似然估计方法的齐普夫定律验证

3.1 曲线拟合方法

3.1.1 最小二乘法拟合

3.1.2 最大似然估计法拟合

3.1.3 Kolmogorov-Smimov检验

3.2 齐普夫定律与最大似然估计

3.2.1 最小二乘法拟合齐普夫律

3.2.2 两种齐普夫定律形式

3.3 实验设计及验证

3.3.1 基于最小二乘法的齐普夫定律拟合

3.3.2 基于最大似然估计方法的齐普夫定律拟合

3.4 小结

第4章基于复杂网络的汉语古诗网络研究

4.1 语言网络常用统计特征及语言网络模型

4.1.1 语言网络常用统计特征

4.1.2 语言网络相关模型

4.1.3 语言网络与文学作品

4.2 古诗数据来源与齐普夫分布

4.2.1 古诗数据来源

4.2.2 汉语古诗的齐普夫分布

4.3 实验设计与结果分析

4.3.1 古诗网络的构建

4.3.2 古诗网络的宏观特征分析

4.3.3 古诗网络的内部结构特征分析

4.4 小结

第5章基于语言网络的词汇相似度研究

5.1 词汇相似概念及词汇相似分布假设

5.1.1 词汇相似概念

5.1.2 词汇相似分布假设

5.2 复杂网络中节点相似度计算方法

5.2.1 基于局部特征的节点相似度计算方法

5.2.2 基于全局特征的节点相似度计算方法

5.2.3 基于网络节点相似度计算方法的优缺点

5.3 词汇相似度的评价

5.3.1 词汇相似度评价的分类

5.3.2 词汇相似度黄金标准的制定

5.4 语言网络中基于贡献度折扣的节点相似度算法

5.4.1 思路来源与启发

5.4.2 实验设计

5.4.3 实验基本流程

5.4.4 实验结果

5.4.5 结果分析评价

5.5 入链、出链邻居节点的贡献度比较研究

5.5.1 基于入链、出链邻居节点的名词相似度比较

5.5.2 基于入链、出链邻居节点的动词相似度比较

5.6 小结

第6章基于语言网络的词义归纳与词义消歧研究

6.1 词义归纳与词义消歧相关概念

6.1.1 常见词义关系

6.1.2 词义消歧和词义归纳的区别和联系

6.1.3 词义归纳的主要步骤

6.2 词义归纳算法及原理

6.2.1 词义归纳原理

6.2.2 基于图结构的聚类算法

6.2.3 词义归纳评价

6.3 基于Chinese Whispers算法的中文词义归纳研究

6.3.1 研究出发点

6.3.2 实验设计

6.3.3 实验流程

6.3.4 语料预处理以及子网络生成

6.3.5 结果评价与分析

6.4 小结

第7章总结和展望

7.1 本文的工作总结和主要创新

7.2 下一步的研究计划

参考文献

附录1 相关词性标注集

附录2 攻读博士学位期间主要科研成果及奖励

致谢

基于语料库的词汇级知识挖掘研究

论文摘要

论文目录

相关论文文献

猜你喜欢