基于拼音标注的中文分词算法研究

基于拼音标注的中文分词算法研究

论文摘要

随着计算机科学与技术尤其是互联网技术的高速发展,人们日常生活的日新月异,使得互联网上呈现出信息知识大爆炸的势头,信息检索成为人们生活中不可或缺的组成部分。而中文分词技术作为中文信息检索的重要基础部分,对信息检索的准确性和有效性都有着很大的影响。一个好的中文信息检索系统,就必须有一个好的中文分词为基础。本文首先介绍了当前中文分词的发展现状,然后主要介绍基于统计的中文分词和算法,以及基于统计的条件最大熵模型、隐马尔科夫模型。中科院计算所采用基于层次隐马尔科夫模型,自主研发出来的ICTCLAS中文分词系统对本文提供了莫大的帮助。该系统将中文分词分为原子切分、N-最短路径粗切分、未登陆词识别、基于角色标注的命名实体识别、基于类的隐马标注这五个层HMM组成。其中,第二层采用N-最短路径算法求出N最优切分结果,基于角色标注的命名实体识别采用Viterbi算法标注出全局最优的角色序列。通过对比试验表明,层次隐马模型的各个层面对中文词法分析都起到了积极的作用。本文在ICTCLAS的基础之上,提出了一种基于汉语拼音标注的分词算法,它需要根据拼音词典,对原始预料库进行拼音标注,根据六词位法统计出各个拼音在词语中出现的位置情况。在分词时,首先将待分词的句子进行拼音标注,然后采用基于词典的最大匹配算法计算出候选的N个分词结果,然后对每一个分词结果进行拼音词位的标注,通过统计出来的每个词位的概率,计算出每个分词结果的标注概率,选择概率最大的作为最终的分词结果。我们将该算法应用到ICTCLAS系统的命名实体识别中时,收到了一定的成效,为今后进一步的研究和挖掘中文分词算法奠定了基础。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究中文分词的目的和意义
  • 1.2 中文分词的发展过程和发展现状
  • 1.3 主要的研究内容以及论文内容安排
  • 2 中文分词技术
  • 2.1 中文分词的定义
  • 2.2 中文分词的规范和评测标准
  • 2.3 中文分词的难点
  • 3 统计语言模型
  • 3.1 最大熵模型
  • 3.2 HMM 模型(Hidden Markov Model)
  • 3.3 N-gram 模型
  • 4 基于统计的分词算法
  • 4.1 基于层次隐马模型的分词
  • 4.2 基于字位信息的分词
  • 4.3 基于拼音标注的分词算法
  • 5 实验数据和分析
  • 6 结束语
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].中文分词算法研究与分析[J]. 物联网技术 2016(01)
    • [2].基于词典的中文分词算法及其性能评估[J]. 电子技术与软件工程 2015(15)
    • [3].一种改进的最大匹配分词算法研究[J]. 现代商贸工业 2010(09)
    • [4].基于哈希算法的中文分词算法的改进[J]. 图书情报工作 2008(06)
    • [5].一种基于改进最大匹配快速中文分词算法[J]. 科技创新导报 2009(09)
    • [6].基于双字词的动态最大匹配分词算法的研究[J]. 太原科技大学学报 2009(03)
    • [7].一种改进的统计与后串最大匹配的中文分词算法研究[J]. 计算机工程与科学 2008(08)
    • [8].问答系统的汉语分词算法研究[J]. 数字技术与应用 2012(05)
    • [9].改进的正向最大匹配分词算法[J]. 计算机工程与设计 2010(11)
    • [10].一种改进的基于词频统计的中文分词算法研究[J]. 信息技术 2008(04)
    • [11].基于汉语拼音首字母索引的混合分词算法[J]. 计算机系统应用 2016(04)
    • [12].两种中文分词算法在云计算平台上的实现及比较[J]. 网络安全技术与应用 2014(12)
    • [13].一种适用于移动搜索的中文分词算法[J]. 西安邮电大学学报 2015(04)
    • [14].一种中文自然语言表达交通信息的跨阶分词算法[J]. 武汉大学学报(信息科学版) 2009(08)
    • [15].中文分词算法研究综述[J]. 成组技术与生产现代化 2018(03)
    • [16].基于领域词典的动态规划分词算法[J]. 南京理工大学学报 2019(01)
    • [17].基于最佳粒度匹配的中文分词算法的研究[J]. 自动化与仪器仪表 2016(07)
    • [18].基于统计的云搜索中文分词算法[J]. 西北大学学报(自然科学版) 2015(04)
    • [19].中文分词改进算法在物理教学中的应用[J]. 考试周刊 2011(26)
    • [20].中文分词算法解析[J]. 电脑知识与技术 2009(01)
    • [21].中文分词算法研究[J]. 微计算机应用 2008(08)
    • [22].基于中文分词算法的英语学习资源查询系统研究[J]. 教育教学论坛 2014(38)
    • [23].自学习分词算法在科研项目查重系统中的应用[J]. 科技通报 2013(06)
    • [24].中文分词算法综述[J]. 黑龙江科技信息 2012(08)
    • [25].中文分词算法概述[J]. 电脑知识与技术 2009(10)
    • [26].一种改进的最大匹配中文分词算法[J]. 计算机技术与发展 2011(10)
    • [27].面向文本知识管理的自适应中文分词算法[J]. 重庆大学学报 2010(10)
    • [28].中文分词算法研究综述[J]. 情报探索 2008(11)
    • [29].中文分词算法在自然语言处理技术中的研究及应用[J]. 信息与电脑(理论版) 2011(24)
    • [30].中文分词算法在搜索引擎应用中的研究[J]. 中小企业管理与科技(下旬刊) 2019(01)

    标签:;  ;  ;  ;  

    基于拼音标注的中文分词算法研究
    下载Doc文档

    猜你喜欢