论文摘要
随着计算机科学与技术尤其是互联网技术的高速发展,人们日常生活的日新月异,使得互联网上呈现出信息知识大爆炸的势头,信息检索成为人们生活中不可或缺的组成部分。而中文分词技术作为中文信息检索的重要基础部分,对信息检索的准确性和有效性都有着很大的影响。一个好的中文信息检索系统,就必须有一个好的中文分词为基础。本文首先介绍了当前中文分词的发展现状,然后主要介绍基于统计的中文分词和算法,以及基于统计的条件最大熵模型、隐马尔科夫模型。中科院计算所采用基于层次隐马尔科夫模型,自主研发出来的ICTCLAS中文分词系统对本文提供了莫大的帮助。该系统将中文分词分为原子切分、N-最短路径粗切分、未登陆词识别、基于角色标注的命名实体识别、基于类的隐马标注这五个层HMM组成。其中,第二层采用N-最短路径算法求出N最优切分结果,基于角色标注的命名实体识别采用Viterbi算法标注出全局最优的角色序列。通过对比试验表明,层次隐马模型的各个层面对中文词法分析都起到了积极的作用。本文在ICTCLAS的基础之上,提出了一种基于汉语拼音标注的分词算法,它需要根据拼音词典,对原始预料库进行拼音标注,根据六词位法统计出各个拼音在词语中出现的位置情况。在分词时,首先将待分词的句子进行拼音标注,然后采用基于词典的最大匹配算法计算出候选的N个分词结果,然后对每一个分词结果进行拼音词位的标注,通过统计出来的每个词位的概率,计算出每个分词结果的标注概率,选择概率最大的作为最终的分词结果。我们将该算法应用到ICTCLAS系统的命名实体识别中时,收到了一定的成效,为今后进一步的研究和挖掘中文分词算法奠定了基础。
论文目录
相关论文文献
- [1].中文分词算法研究与分析[J]. 物联网技术 2016(01)
- [2].基于词典的中文分词算法及其性能评估[J]. 电子技术与软件工程 2015(15)
- [3].一种改进的最大匹配分词算法研究[J]. 现代商贸工业 2010(09)
- [4].基于哈希算法的中文分词算法的改进[J]. 图书情报工作 2008(06)
- [5].一种基于改进最大匹配快速中文分词算法[J]. 科技创新导报 2009(09)
- [6].基于双字词的动态最大匹配分词算法的研究[J]. 太原科技大学学报 2009(03)
- [7].一种改进的统计与后串最大匹配的中文分词算法研究[J]. 计算机工程与科学 2008(08)
- [8].问答系统的汉语分词算法研究[J]. 数字技术与应用 2012(05)
- [9].改进的正向最大匹配分词算法[J]. 计算机工程与设计 2010(11)
- [10].一种改进的基于词频统计的中文分词算法研究[J]. 信息技术 2008(04)
- [11].基于汉语拼音首字母索引的混合分词算法[J]. 计算机系统应用 2016(04)
- [12].两种中文分词算法在云计算平台上的实现及比较[J]. 网络安全技术与应用 2014(12)
- [13].一种适用于移动搜索的中文分词算法[J]. 西安邮电大学学报 2015(04)
- [14].一种中文自然语言表达交通信息的跨阶分词算法[J]. 武汉大学学报(信息科学版) 2009(08)
- [15].中文分词算法研究综述[J]. 成组技术与生产现代化 2018(03)
- [16].基于领域词典的动态规划分词算法[J]. 南京理工大学学报 2019(01)
- [17].基于最佳粒度匹配的中文分词算法的研究[J]. 自动化与仪器仪表 2016(07)
- [18].基于统计的云搜索中文分词算法[J]. 西北大学学报(自然科学版) 2015(04)
- [19].中文分词改进算法在物理教学中的应用[J]. 考试周刊 2011(26)
- [20].中文分词算法解析[J]. 电脑知识与技术 2009(01)
- [21].中文分词算法研究[J]. 微计算机应用 2008(08)
- [22].基于中文分词算法的英语学习资源查询系统研究[J]. 教育教学论坛 2014(38)
- [23].自学习分词算法在科研项目查重系统中的应用[J]. 科技通报 2013(06)
- [24].中文分词算法综述[J]. 黑龙江科技信息 2012(08)
- [25].中文分词算法概述[J]. 电脑知识与技术 2009(10)
- [26].一种改进的最大匹配中文分词算法[J]. 计算机技术与发展 2011(10)
- [27].面向文本知识管理的自适应中文分词算法[J]. 重庆大学学报 2010(10)
- [28].中文分词算法研究综述[J]. 情报探索 2008(11)
- [29].中文分词算法在自然语言处理技术中的研究及应用[J]. 信息与电脑(理论版) 2011(24)
- [30].中文分词算法在搜索引擎应用中的研究[J]. 中小企业管理与科技(下旬刊) 2019(01)
标签:中文分词论文; 条件最大熵模型论文; 隐马尔科夫模型论文; 拼音标注的中文分词论文;