词典与统计相结合的中文分词的研究

词典与统计相结合的中文分词的研究

论文摘要

随着社会信息化的发展,人们很容易获得海量信息。但是要处理海量信息,靠人工是不可能的,必须依靠计算机的帮助。和西方语言不同,中文中的词与词之间没有明显的切分标志。所以,要使计算机能够处理中文文本,就必须先进行中文分词。现在大多数中文分词研究都依赖计算机完成切分工作,但其结果一般还不能令人满意。由于汉语的复杂性和新词语的不断出现,现有的中文自动分词系统还没有达到令人满意的效果。本文分析了当前中文分词已经实际使用的算法,各种分词词典组织形式,并研究了中文分词目前存在的问题。并主要介绍了一种基于机械匹配与基于统计相结合的中文分词算法,解决了一部分条件下的人名,地名,机构名,数量词等类型的未登录词以及交集型歧义引起的切分错误问题。本文采用了统计和词典相结合的复合分词方法,在多个方面进行了改进。在统计方面,通过对第一次分词结果中碎片的统计,识别出在文本中出现过超过一次的未登录词,并将其加入临时词典;对词典的组织结构进行了改进,把单个词典分为基本词典和扩展词典两个部分。改进了基本词典在内存中的组织结构,根据汉语中双字词的数量最多的特点和哈希结构查找速度快的特点,采用了双字哈希索引结构将基本词典中的词按照前两个字为关键字进行存储,并在词条中加入词频信息用于歧义消解,扩展词典则包括数量词词典,姓氏词典,临时词典,停用字词典等,它们将分别用于数量词和命名实体识别等;通过对数量词的预先正确切分减少了由于这些词所引起的歧义数量;使用改进的正向最大匹配分词法对文本进行第二次分词,并使用统计的方法消除部分歧义;最后使用规则的方法,在机械分词结果中识别出在文本中只出现一次的未登录词。由于命名实体中人名识别的上下文限定条件最多,所以识别效果最好,机构名组成结构最复杂,识别效果也最差,所以本文是依次进行人名,地名和机构名的识别。通过实验发现本系统具有较好的未登录词识别能力和歧义消除能力,基本上可以满足中文信息处理实际应用的要求。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 绪论
  • 1.1. 中文分词的必要性
  • 1.2. 几个已经实现的分词系统
  • 1.3. 本文的组织结构
  • 第二章 中文分词技术的理论基础
  • 2.1. 中文分词要解决的主要问题
  • 2.1.1. 分词规范的问题
  • 2.1.2. 分词歧义的处理问题
  • 2.1.3. 未登录词的识别问题
  • 2.1.4. 分词和理解的先后问题
  • 2.2. 目前主要的分词方法
  • 2.2.1. 基于统计的分词方法
  • 2.2.2. 基于词典的分词方法
  • 2.2.3. 机械分词词典的构造
  • 2.2.4. 基于理解的分词方法
  • 2.2.5. 几种分词方法的比较
  • 2.3. 对分词系统性能的评价指标
  • 第三章 基于统计和词典的中文分词算法的设计
  • 3.1. 基于统计方法的未登录词识别
  • 3.2. 词典的结构
  • 3.2.1. Hash词典
  • 3.2.2. 其它词典
  • 3.3. 文本中的数量词识别规则
  • 3.3.1. 数词
  • 3.3.2. 量词
  • 3.3.3. 复合数量词
  • 3.3.4. 数量词的出现特征
  • 3.3.5. 数量词的识别算法
  • 3.4. 改进的正向最大匹配分词方法
  • 3.4.1. 长词优先的正向最大匹配方法
  • 3.4.2. 改进的正向最大退一字匹配法
  • 第四章 分词后的命名实体识别部分
  • 4.1. 人名识别
  • 4.1.1. 中文人名识别面临的主要困难
  • 4.1.2. 姓氏分析
  • 4.1.3. 人名上下文信息
  • 4.1.4. 潜在姓名的抽取
  • 4.2. 地名识别
  • 4.2.1. 中文地名识别的特点
  • 4.2.2. 利用特征词识别中文地名
  • 4.3. 机构名识别
  • 4.3.1. 机构名称的语法性质
  • 4.3.2. 机构名称的语义特性
  • 4.3.3. 机构名的组织规律
  • 4.4. 命名实体识别的效果
  • 第五章 实验分析
  • 5.1. 系统的整体结构
  • 5.2. 实验过程
  • 5.3. 实验结果分析
  • 5.4. 综合实验分析
  • 第六章 总结与展望
  • 6.1. 全文总结
  • 6.2. 未来工作展望
  • 参考文献
  • 致谢
  • 攻读硕士研究生期间所发表的论文
  • 相关论文文献

    • [1].中华书局版《北京话词典》读后[J]. 北京史学 2018(01)
    • [2].汉语新词语英译词典稿件中的典型问题分析[J]. 传播力研究 2020(09)
    • [3].《新时代大俄汉词典》的背后——“中国辞典故事”之三[J]. 博览群书 2020(07)
    • [4].从叶尊孝《汉拉词典》到市场词汇——在意大利和法国出版汉语两百年[J]. 国际汉学 2020(S1)
    • [5].牛津词典2017年度热词:“青年震荡”[J]. 世界知识 2018(01)
    • [6].任务投入量假说视角下的英汉少儿图解词典对比分析——以词汇任务为例[J]. 广东外语外贸大学学报 2016(05)
    • [7].汉语搭配词典存在的问题及应对策略研究[J]. 辞书研究 2017(01)
    • [8].文化的传承 语言的记载——评《中华汉英大词典(上)》[J]. 辞书研究 2017(04)
    • [9].论沈苇《新疆词典》的地域性与超地域性[J]. 北京教育学院学报 2017(04)
    • [10].一部内容丰赡、精益求精的词典——评《实用英汉技术词典》[J]. 教育文化论坛 2015(06)
    • [11].词典里的“埋伏”[J]. 现代班组 2016(09)
    • [12].试论网络词典对翻译学习的影响[J]. 山西煤炭管理干部学院学报 2015(01)
    • [13].论现代词典的内在教育价值[J]. 外语研究 2015(04)
    • [14].抗疫词典(组诗)[J]. 诗林 2020(02)
    • [15].小词典[J]. 中国诗歌 2018(06)
    • [16].音乐小词典[J]. 中小学音乐教育 2009(01)
    • [17].《实用汉英中西医词典》编撰体例创新探讨[J]. 疯狂英语(理论版) 2016(03)
    • [18].词典例证翻译标准探索[J]. 疯狂英语(理论版) 2017(01)
    • [19].《哈尔滨方言词典》补正[J]. 现代语文(语言研究版) 2010(09)
    • [20].牛津词典公布2017年度热词:“青年震荡”[J]. 黄金时代(学生族) 2018(01)
    • [21].英国互联网上的“众筹词典”[J]. 高中生 2018(22)
    • [22].词典的故事[J]. 小学生优秀作文 2018(28)
    • [23].嫉妒,还是羡慕[J]. 高中生 2017(27)
    • [24].试析几部与“翻译”相关的词典之属性[J]. 环球人文地理 2014(02)
    • [25].有尊严地做教育[J]. 湖北教育(综合资讯) 2014(09)
    • [26].《明清吴语词典》释义探讨[J]. 中国训诂学报 2013(00)
    • [27].校园魔鬼词典新编[J]. 意林(少年版) 2012(04)
    • [28].词典例证研究述评[J]. 中国科教创新导刊 2012(13)
    • [29].生活词典(外二首)[J]. 青年作家 2013(02)
    • [30].浑河的词典[J]. 诗潮 2013(08)

    标签:;  ;  ;  ;  

    词典与统计相结合的中文分词的研究
    下载Doc文档

    猜你喜欢