基于词频统计的齐夫定律汉语适用性研究

基于词频统计的齐夫定律汉语适用性研究

论文摘要

本文所要解决的主要问题是通过对大规模中文文本语料的词频统计和分析,对包括齐夫第一定律和齐夫第二定律在内的齐夫定律进行汉语适用性的验证研究。本文分为五章来开展研究工作:第一章是对词频统计进行总体介绍和概述,厘清词频统计的定义与特性,阐述词频统计国外和国内的发展历程,介绍论文研究的目的、意义和内容。第二章是对本文研究的主旨——齐夫定律的发展历程的研究,阐释了本文研究的理论背景和指导思想,从数理上对齐夫定律进行了推导和演示,并回顾了国内对于齐夫定律以及齐夫定律的汉语适用性的研究。第三章是通过对大规模文本语料的词频统计和分析,验证齐夫第一定律的汉语适用性。文章首先对词级和词序进行定义区分,为接下来的实验扫清方法障碍;接着通过实验1对词级确定方法进行验证和比较,挑选出较为适合的词级确定方法;然后通过实验2对实验1所用语料进行人工分词和统计,以比较计算机手段分词统计与人工手段之间的差别,验证计算机手段的可行性和可信度;最后通过实验3对大规模文本语料进行词频统计和分析,绘出六大分语料库的齐夫分布曲线及齐夫对数分布曲线,并同齐夫第一定律中所绘出的理想的齐夫分布曲线和理想的齐夫对数分布曲线相比较,以判断齐夫第一定律的汉语适用性。第四章则是对齐夫第二定律进行大规模文本语料的验证与分析,以确定低频词段中文词频分布的规律,及其对齐夫第二定律的适用性。文章首先阐述了齐夫第二定律的发展历程,及其与齐夫第一定律的区别和联系;接着设定了实验4,首先统计出五大分语料库语料的同频词数和同频词数对数,然后通过齐夫第二定律,对同频词数进行理论推导,计算出预测值同频词数和预测值同频词数对数,最后提出绘制五大语料库各自的同频词数分布曲线、同频词数对数分布曲线、预测值同频词数分布曲线和预测值同频词数对数分布曲线,并互相比较,以求判断齐夫第二定律的汉语适用性。第五章则是结语,对本文所做的统计和验证工作进行总结,对未来可以继续开展的工作进行展望。在对六大分语料库进行齐夫分布研究后,我们发现,大规模中文文本语料的词频分布在高频词和中频词阶段符合齐夫第一定律的分布,而低频词段的词频分布则与齐夫第二定律的分布规律更为吻合。相应地,大规模中文文本语料的低频词段的词频分布较之于齐夫第一定律所描述的线性递降趋势有很大偏差,呈现出抛物线状下降的状态;在其中高频词段的词频分布与齐夫第二定律所描述的分布规律也不相似,呈阶梯状下降趋势。这也从侧面反映出齐夫第一定律和齐夫第二定律各自适用的范围与区间。最终本文得出结论,大规模中文文本语料符合齐夫定律的分布。

论文目录

  • 摘要
  • Abstract
  • 第一章 词频统计概述
  • 1.1 词频统计简介
  • 1.1.1 词频统计及其作用
  • 1.1.2 词频统计的类型与特点
  • 1.2 国内外词频统计的发展历程
  • 1.2.1 国外词频统计的发展历程
  • 1.2.2 国内词频统计的发展历程
  • 1.3 论文研究的目的、意义和结构
  • 1.3.1 论文研究的目的
  • 1.3.2 论文研究的意义
  • 1.3.3 论文研究的结构
  • 第二章 齐夫定律的发展研究
  • 2.1 齐夫定律的发展历程
  • 2.1.1 艾斯杜的发现
  • 2.1.2 贡东公式
  • 2.1.3 齐夫定律的定义
  • 2.1.4 朱斯的双参数公式
  • 2.1.5 芒代耳布罗的三参数公式
  • 2.2 齐夫第二定律
  • 2.3 齐夫定律的指导思想——最省力法则
  • 2.3.1 "最省力法则"的提出过程
  • 2.3.2 "最省力法则"的内容
  • 2.4 国内对于齐夫定律的研究
  • 第三章 齐夫第一定律的汉语适用性研究
  • 3.1 确定词语等级方法的采用
  • 3.1.1 区分词级与词序
  • 3.1.2 词级确定方法
  • 3.1.3 实验1:各种词级确定方法的检验
  • 3.1.3.1 实验1的设定
  • 3.1.3.2 实验1的结果
  • 3.1.3.3 实验1的分析
  • 3.1.3.4 冯志伟先生"破碎折线说"的验证
  • 3.2 实验2:计算机分词统计与人工分词统计的效果对比
  • 3.2.1 实验2的设定
  • 3.2.2 实验2的结果
  • 3.2.3 实验2的分析
  • 3.3 大规模文本语料的检验
  • 3.3.1 关于大规模文本语料的定义
  • 3.3.1.1 语料库的定义
  • 3.3.1.2 文本的定义
  • 3.3.1.3 大规模文本的定义
  • 3.3.2 实验3的设定
  • 3.3.2.1 实验3所用语料库
  • 3.3.2.2 实验3后期人工去噪的原则
  • 3.3.3 实验3的结果
  • 3.3.4 实验3的分析
  • 3.3.4.1 齐夫分布曲线的分析
  • 3.3.4.2 齐夫对数分布曲线的分析
  • 3.4 本章小结
  • 第四章 齐夫第二定律的汉语适用性研究
  • 4.1 齐夫第二定律的发展
  • 4.1.1 齐夫的推论
  • 4.1.2 布什的推导
  • 4.2 实验4齐夫第二定律的汉语适用性验证
  • 4.2.1 实验4的设定
  • 4.2.2 实验4的步骤
  • 4.2.3 实验4的结果
  • 4.2.4 实验4的分析
  • 4.2.4.1 同频词数分布曲线与预测值同频词数分布曲线
  • 4.2.4.2 同频词数对数分布曲线与预测值同频词数对数分布曲线
  • 第五章 结论
  • 5.1 本文研究总结
  • 5.2 需要进一步开展的工作
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文
  • 相关论文文献

    • [1].自然定律本质的倾向性解释研究[J]. 科学技术哲学研究 2020(04)
    • [2].为者常成 行者常至——读王璋《跨越九曲十八弯——漫谈人生成功九定律》一书有感[J]. 人才资源开发 2018(04)
    • [3].营销人员应掌握的21条销售定律[J]. 北方牧业 2017(03)
    • [4].生活中的小定律[J]. 现代班组 2017(03)
    • [5].社会定律篇(一) 这些常识我们应该知晓[J]. 新湘评论 2016(10)
    • [6].你不得不懂的20条社会定律[J]. 检察风云 2015(20)
    • [7].教育的九个定律[J]. 当代教育家 2019(11)
    • [8].男女相处的有趣定律[J]. 37°女人 2020(11)
    • [9].人生定律[J]. 中国老年 2019(06)
    • [10].找东西定律[J]. 新教育 2018(18)
    • [11].15个简单却惊人的社会定律[J]. 民间传奇故事(A卷) 2018(10)
    • [12].人生三定律[J]. 老年教育(老年大学) 2014(11)
    • [13].那些悲催的定律[J]. 视野 2013(24)
    • [14].接吻定律[J]. 今古传奇(故事版下半月版) 2013(08)
    • [15].人生定律[J]. 晚报文萃 2012(02)
    • [16].雷人画语[J]. 美文(上半月) 2012(01)
    • [17].不值得定律[J]. 新作文.金牌读写(初中生适读) 2012(Z1)
    • [18].人际定律[J]. 杂文选刊(下旬版) 2012(03)
    • [19].人生趣味定律[J]. 时代英语(高三) 2012(05)
    • [20].人生趣味定律[J]. 时代英语(高三) 2012(02)
    • [21].人生定律[J]. 杂文月刊(文摘版) 2012(05)
    • [22].人际定律[J]. 晚报文萃 2012(12)
    • [23].人际定律[J]. 杂文月刊(原创版) 2012(05)
    • [24].定律[J]. 新一代 2012(05)
    • [25].人生定律[J]. 杂文选刊(中旬版) 2012(10)
    • [26].防守三定律[J]. 网球 2012(12)
    • [27].价值定律[J]. 高中生 2013(03)
    • [28].趣味人生定律[J]. 高中生 2013(07)
    • [29].有趣的夫妻经典定律[J]. 现代妇女 2013(08)
    • [30].趣味定律[J]. 现代青年(细节版) 2013(09)

    标签:;  ;  ;  

    基于词频统计的齐夫定律汉语适用性研究
    下载Doc文档

    猜你喜欢