综合字典和统计分析的中文分词系统的研究与实现

综合字典和统计分析的中文分词系统的研究与实现

论文摘要

中文分词技术主要包含以下三个研究方向:理解分词,机械分词以及统计分词。基于理解的分词方法研究尚未成熟,所以,绝大部分中文分词系统是应用机械统计相结合的方法。在目前主流的词典和统计相结合的分词系统中,统计策略和词典设计的关系往往是相互独立的,词典主要是作为机械分词的标准,而基于统计的方法主要是为了解决歧义问题以及未登录词的识别问题。本文所阐述的中文分词系统,将基于分词核心词典的机械分词和基于统计的方法组成了一个有机的整体。系统将统计得出的结果作为分词核心词典的输入,对于待切分文本来说,对于未登录词和词典词条,本文算法的本质均是先基于统计的方法扩充核心词典,然后采用基于字符串匹配的分词方法切词。总体上讲,本系统具有以下三方面的特点。专用性:适合计算机学科专业领域的分词,这主要取决于训练文本的选择;分词效率高:算法核心是基于字符串匹配的方法;分词精度较好:利用简单统计量模型与机械分词的有机结合解决了部分歧义词和未登录词问题。解决方案中涉及到的关键技术主要包括以下三个部分:第一、分词词典的设计。在整体结构上,词典分成两级结构,临时词典和核心词典。临时词典是通过统计方法将新词条向分词核心词典中输送的中间容器。核心词典是分词系统中切分的唯一依据,为了提高查询速度,结合中文二字词比例较大的特点,核心词典采用双层哈希结构。第二、统计策略的制定。歧义词和新词的识别主要依靠基于统计的方法,本文选择了基于互信息原理的方法进行词频统计。该统计模型,原理简单,实现方便,有较强的实用价值。第三、机械分词方法的应用。为了简化系统结构,提高算法效率,核心分词模块中,根据汉语的后重心特点以及“长词优先”准侧,我们选择逆向最大匹配算法。总体上讲,系统在初始化后即能够满足一定程度的应用,准确率等分词精度指标保持在97%以上;选择合适的训练语料,经过一定强度的统计学习后,分词精度参数可以提高将近一个百分点左右;分词效率指标不会发生明显变化。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 引言
  • 1.2 中文分词发展现状及特点
  • 1.2.1 中文分词技术的发展
  • 1.2.2 中文分词系统的评价标准
  • 1.3 论文的结构
  • 第2章 中文分词基本算法研究
  • 2.1 中文分词的基本算法
  • 2.1.1 机械分词算法
  • 2.1.2 基于统计的分词算法
  • 2.1.3 基于理解的分词算法
  • 2.1.4 词性标注与角色标注
  • 2.2 中文分词技术面临的问题
  • 2.2.1 歧义词的处理
  • 2.2.2 未登录词的处理
  • 第3章 基于字典与统计的分词算法的设计
  • 3.1 本系统要解决的问题
  • 3.2 系统特点概述
  • 3.2.1 专用性
  • 3.2.2 精确性
  • 3.2.3 分词效率
  • 3.3 分词词典的设计
  • 3.3.1 基于哈希的分词词典机制
  • 3.3.1.1 分词词典的整体构造
  • 3.3.1.2 核心词典的详细设计
  • 3.3.1.3 临时词典的详细设计
  • 3.4 统计策略的设计
  • 3.4.1 统计原理的选择与实现
  • 3.4.2 训练文本的选择
  • 3.5 机械分词的应用
  • 3.6 歧义和未登录词问题的解决
  • 第4章 基于字典与统计的分词算法流程及系统设计
  • 4.1 算法流程描述
  • 4.2 算法具体设计
  • 4.2.1 分词词典的加载
  • 4.2.1.1 核心词典的加载
  • 4.2.1.2 临时词典的加载
  • 4.2.2 待分字符串的预处理
  • 4.2.3 词频信息统计
  • 4.2.4 逆向最大匹配
  • 第5章 实验结果分析
  • 5.1 系统评价指标介绍
  • 5.2 系统初始化后的性能测试
  • 5.2.1 系统综合性能测试一
  • 5.2.2 歧义和未登录词处理能力测试一
  • 5.3 系统统计学习后的性能测试
  • 5.3.1 系统综合性能测试二
  • 5.3.2 歧义和未登录词处理能力测试二
  • 5.4 分词算法的比较
  • 5.4.1 机械分词算法的比较
  • 5.4.2 统计策略的比较
  • 5.5 分词系统测试实例展示
  • 第6章 系统的总结与展望
  • 6.1 论文总结
  • 6.2 中文分词系统的展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表的论文
  • 相关论文文献

    • [1].中文分词关键技术研究[J]. 湖北农机化 2017(06)
    • [2].基于粗分和词性标注的中文分词方法[J]. 计算机工程与应用 2015(06)
    • [3].中文分词[J]. 中国文艺家 2019(02)
    • [4].双向循环网络中文分词模型[J]. 小型微型计算机系统 2017(03)
    • [5].IK Analyzer 2012发布中文分词库[J]. 硅谷 2012(06)
    • [6].中文分词在大数据时代医学领域的应用[J]. 电子技术与软件工程 2018(17)
    • [7].基于深度学习算法的中文分词的研究[J]. 计算机产品与流通 2019(05)
    • [8].中文分词相关算法研究[J]. 科技经济导刊 2018(02)
    • [9].基于语义信息的中文分词研究[J]. 电脑知识与技术 2018(22)
    • [10].一种基于词频统计的中文分词方法[J]. 科技展望 2016(10)
    • [11].中文分词中歧义字段处理的研究[J]. 电子世界 2019(12)
    • [12].基于词的关联特征的中文分词方法[J]. 通信技术 2018(10)
    • [13].一种改进的单向扫描中文分词方法[J]. 科学技术创新 2017(33)
    • [14].一种中文分词的动态规划模型[J]. 数学建模及其应用 2015(01)
    • [15].中文分词和词性标注模型[J]. 计算机工程 2010(04)
    • [16].常用中文分词软件在中医文本文献研究领域的适用性研究[J]. 世界科学技术-中医药现代化 2017(03)
    • [17].基于循环神经网络序列标注的中文分词研究[J]. 计算机技术与发展 2017(10)
    • [18].中文分词和词向量[J]. 中国新通信 2018(23)
    • [19].基于异构数据联合训练的中文分词法[J]. 电子科技 2019(04)
    • [20].基于受限领域的中文分词系统[J]. 信息系统工程 2011(11)
    • [21].基于深度神经网络模型的中文分词方案[J]. 哈尔滨工程大学学报 2019(09)
    • [22].基于在线比较评论情感分析的方法探索[J]. 中国市场 2019(25)
    • [23].基于中文分词的电子病历数据挖掘技术[J]. 湖南科技学院学报 2016(10)
    • [24].一种面向中文分词的搜索算法[J]. 计算机应用与软件 2018(10)
    • [25].基于Lucene的中文分词器的设计与实现[J]. 微型机与应用 2011(18)
    • [26].基于隐马尔可夫模型的中文分词[J]. 现代计算机(专业版) 2018(33)
    • [27].基于联合学习的跨领域法律文书中文分词方法[J]. 中文信息学报 2019(09)
    • [28].中英命名实体识别及对齐中的中文分词优化[J]. 电子学报 2015(08)
    • [29].一种基于层叠模型的中文分词系统[J]. 太原师范学院学报(自然科学版) 2013(04)
    • [30].基于膨胀卷积神经网络模型的中文分词方法[J]. 中文信息学报 2019(09)

    标签:;  ;  ;  ;  

    综合字典和统计分析的中文分词系统的研究与实现
    下载Doc文档

    猜你喜欢