论文摘要
在数字化和网络化浪潮的逐步推动下,情报学、自然语言处理和文本挖掘的研究对象和任务正在悄然发生改变,这种改变主要表现在,从非结构化文本中来获取人们需要的知识成为一种趋势,而基于大规模语料从宏观整体层面来考察词汇的分布规律、挖掘语言网络内部的结构特征、利用语言网络结构来获取词汇之间的词义关系正是顺应这一研究趋势而开展的词汇级知识的探究。基于语料库的词汇级知识的挖掘和获取研究不仅有利于词汇知识组织、词典构建、信息检索等情报学研究的开展,还有助于词义消歧、机器翻译等自然语言处理任务的解决。基于多种研究方法和多组实验语料,本文立足于以中文为核心的信息处理,从词频分布、语言网络的宏观整体特征以及微观结构特征、词汇相似度计算和词义归纳四个层面进行了相应的知识挖掘和获取研究。在词频分布这一层次的研究中,利用最大似然估计的曲线拟合方法对中文和英文的词频分布进行了比较验证。在该部分,通过采用最大似然估计的方法对齐普夫定律的词频和概率分布进行了曲线拟合,计算得到了英文的齐普夫率在1.0左右,中文的齐普夫率在1.3左右;在分布曲线的拟合效果上,英文的齐普夫分布拟合效果要明显好于中文。针对两种语言词汇分布的差异,本文进一步对中英文语料中的高频词和低频词分布进行了统计,发现了中英文在词频分布曲线首尾存在差异的原因。在古汉语诗歌网络研究中,首先通过字共现关系构建了古汉语诗歌网络,然后从宏观整体层面和微观内部结构层面探究了古诗歌网络的整体特征以及内部结构特点。在宏观整体层面,发现古汉语诗歌网络是一种小世界网络并且呈现出了典型的无尺度特征。但和现代汉语已有的相关研究相比,其小世界性偏弱,凝聚性不够强。在微观结构层面,发现其最核心的k-核子图可以在一定程度上揭示作者的写作风格、性格特点以及当时社会因素。在相似词的挖掘和获取研究中,首先基于人民日报标注语料构建了现代汉语词共现语言网络,进而利用网络中节点相似的思想来计算词汇的相似度。基于词汇分布的假设,本文提出了在语言网络中基于贡献度折扣的词汇相似度方法,该方法不仅考虑了网络边的权重信息,还将节点的全局度特征融合进来。通过节点相似度实验发现,本文提出的基于贡献度折扣的相似度算法要明显好于共同邻居法、Jaccard方法和Salton方法。为了考证左右邻居节点对相似词挖掘的影响,本文进一步对名词和动词的入链邻居节点和出链邻居节点分别进行了探究,发现在名词的相似词获取任务中,出链邻居节点的贡献要高于入链邻居节点,在动词的相似词获取任务中,出链邻居节点的贡献要明显小于入链邻居节点。在词义归纳的研究中,利用专为复杂网络设计的图结构聚类算法,探究了基于大规模语料来获取汉语多义词词义的可行性。研究首先构建了针对每个目标词的子网络,然后利用图结构聚类算法通过多次迭代计算,最终确定多义词的词义簇。通过多组多义词的聚类实验结果,发现以复杂网络为组织工具,基于大规模语料来进行汉语的词义归纳的方法是可行。同时还发现基于数据驱动的词义归纳和语料特征密切相关,词义归纳的效果受到语料的内容、规模等因素的影响。
论文目录
摘要Abstract第1章 引言1.1 研究背景1.2 研究意义1.3 研究方法1.4 研究思路和研究框架1.5 论文结构第2章 相关研究综述2.1 齐普夫定律相关研究概况2.2 语言网络分类及相关研究进展2.2.1 语言网络分类2.2.2 语音网络2.2.3 共现网络2.2.4 依存句法网络2.2.5 语义概念网络2.2.6 其它语言网络2.3 复杂网络中节点相似度研究综述2.3.1 社会网络2.3.2 链接预测2.3.3 合作网络2.3.4 引文网络2.3.5 社区发现2.3.6 词典自动构建2.4 词义归纳和词义消歧的研究价值和现状综述2.4.1 词义归纳和词义消歧的研究价值2.4.2 词义消歧的分类2.4.3 词义归纳现状综述第3章 基于最大似然估计方法的齐普夫定律验证3.1 曲线拟合方法3.1.1 最小二乘法拟合3.1.2 最大似然估计法拟合3.1.3 Kolmogorov-Smimov检验3.2 齐普夫定律与最大似然估计3.2.1 最小二乘法拟合齐普夫律3.2.2 两种齐普夫定律形式3.3 实验设计及验证3.3.1 基于最小二乘法的齐普夫定律拟合3.3.2 基于最大似然估计方法的齐普夫定律拟合3.4 小结第4章 基于复杂网络的汉语古诗网络研究4.1 语言网络常用统计特征及语言网络模型4.1.1 语言网络常用统计特征4.1.2 语言网络相关模型4.1.3 语言网络与文学作品4.2 古诗数据来源与齐普夫分布4.2.1 古诗数据来源4.2.2 汉语古诗的齐普夫分布4.3 实验设计与结果分析4.3.1 古诗网络的构建4.3.2 古诗网络的宏观特征分析4.3.3 古诗网络的内部结构特征分析4.4 小结第5章 基于语言网络的词汇相似度研究5.1 词汇相似概念及词汇相似分布假设5.1.1 词汇相似概念5.1.2 词汇相似分布假设5.2 复杂网络中节点相似度计算方法5.2.1 基于局部特征的节点相似度计算方法5.2.2 基于全局特征的节点相似度计算方法5.2.3 基于网络节点相似度计算方法的优缺点5.3 词汇相似度的评价5.3.1 词汇相似度评价的分类5.3.2 词汇相似度黄金标准的制定5.4 语言网络中基于贡献度折扣的节点相似度算法5.4.1 思路来源与启发5.4.2 实验设计5.4.3 实验基本流程5.4.4 实验结果5.4.5 结果分析评价5.5 入链、出链邻居节点的贡献度比较研究5.5.1 基于入链、出链邻居节点的名词相似度比较5.5.2 基于入链、出链邻居节点的动词相似度比较5.6 小结第6章 基于语言网络的词义归纳与词义消歧研究6.1 词义归纳与词义消歧相关概念6.1.1 常见词义关系6.1.2 词义消歧和词义归纳的区别和联系6.1.3 词义归纳的主要步骤6.2 词义归纳算法及原理6.2.1 词义归纳原理6.2.2 基于图结构的聚类算法6.2.3 词义归纳评价6.3 基于Chinese Whispers算法的中文词义归纳研究6.3.1 研究出发点6.3.2 实验设计6.3.3 实验流程6.3.4 语料预处理以及子网络生成6.3.5 结果评价与分析6.4 小结第7章 总结和展望7.1 本文的工作总结和主要创新7.2 下一步的研究计划参考文献附录1 相关词性标注集附录2 攻读博士学位期间主要科研成果及奖励致谢
相关论文文献
标签:语料库论文; 树库论文; 齐普夫定律论文; 最大似然估计论文; 复杂网络论文;