论文摘要
所谓中文分词,就是将中文语句中的词汇切分出来的过程。由于汉语的书写习惯,汉语语句中词与词之间的标志是隐含的,英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中,词与词之间是没有空格的,因而必须采用某种技术将其分开。中文文本自动分词算法从20世纪80年代以来就一直是一个研究热点,由于中文语言的复杂性使之一直处于发展阶段。近年来,国内外众多学者在中文分词领域做了大量研究工作,取得了一定的研究成果。目前中文分词算法各有优劣,很难绝对地比出高低,所以,中文分词的算法更多时候需要同实际的应用相结合。到目前为止,中文分词包括三类算法:1)基于字符串匹配的分词;2)基于理解的分词;3)基于统计的分词。这些算法各有优劣,还无法证明哪一种方法更准确,它们都有自己技术上特点和用途上的区别。其中基于理解的分词研究还处于未成熟阶段。分词技术作为自然语言处理的基础环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。中文分词工作看似细微,但作为计算机自然语言处理的第一步,它的关键作用是不容忽视的。如今中文分词已成为自然语言处理的研究热点与难点。本文通过对多种中文分词算法进行比较、研究,改进了传统机械分词中的词典结构,提出了基于词库和统计的中文分词算法,从而提高了分词的正确率和效率。该算法将基于统计的无词典分词算法与机械分词方法相结合,改善了机械分词新词识别能力差的问题。由于分词过程主要还是基于机械分词,所以在正确率提高的情况下,仍然能够快速分地分词,随后在本文中所提出算法的基础上,设计开发了一套中文自动分词系统,该系统不仅可以完成对汉语的分词工作,还能比较各种算法的特点,有利于分析和研究。系统中所涉及到的算法也能够很好地为其它应用系统服务。本论文的主要叙述过程如下:首先,介绍了中文分词的概念、应用领域以及面临的难题,列举了现在常用的中文分词算法,并进行了简单的比较。其次,在现有算法基础上,结合了传统机械分词和基于统计方法分词各自的优点,提出了基于词库和统计相结合的中文分词算法。在保证分词速度的同时,也提高了结果的准确率。再次,在基于词典和统计的中文分词算法的基础上,设计并运用Java Web技术实现了中文分词系统。该系统不仅完成了中文分词工作,还能够比较不同算法之间的分词速度,可以验证本文算法的优越性。最后,对论文各项工作进行了总结,并展望了需要进一步改进的工作。
论文目录
相关论文文献
- [1].中文自动分词中的歧义现象研究[J]. 语文学刊 2013(18)
- [2].基于深度学习的中文自动分词研究[J]. 吉林广播电视大学学报 2019(12)
- [3].基于条件随机场的藏语自动分词方法研究与实现[J]. 中文信息学报 2013(04)
- [4].信息过滤中的中文自动分词技术研究[J]. 计算机工程与科学 2009(03)
- [5].中文自动分词系统概述[J]. 电脑知识与技术 2010(33)
- [6].多种方法融合的中文自动分词系统的设计与实现[J]. 韩山师范学院学报 2009(06)
- [7].下期要目[J]. 图书情报工作 2019(22)
- [8].在线英语语料库自动分词和分句的实现[J]. 电脑知识与技术 2010(28)
- [9].基于数学设计的计算机自动分词算法[J]. 江西科学 2009(05)
- [10].以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨[J]. 图书情报工作 2015(11)
- [11].藏文词级处理研究现状及热点方法[J]. 电脑知识与技术 2015(32)
- [12].藏文自动分词技术研究综述[J]. 科技视界 2016(06)
- [13].藏语自动分词中的几个关键问题的研究[J]. 中文信息学报 2014(04)
- [14].藏文自动分词系统中虚词识别算法研究[J]. 计算机应用与软件 2017(09)
- [15].藏语自动分词中的数词识别方法研究[J]. 西藏大学学报(自然科学版) 2015(02)
- [16].傣文自动分词系统的设计与实现[J]. 中文信息学报 2013(06)
- [17].彝文自动分词技术研究[J]. 中文信息学报 2011(03)
- [18].自动答疑系统中文自动分词模块设计与实现[J]. 现代计算机(专业版) 2010(02)
- [19].基于DRIS系统中的中文自动分词模块设计与实现[J]. 电子设计工程 2016(14)
- [20].基于小字符集的藏文自动分词技术研究[J]. 西藏大学学报(自然科学版) 2013(02)
- [21].藏文自动分词系统的设计[J]. 计算机工程与科学 2011(05)
- [22].基于模板知识的带噪音半结构文本数据自动分词方法[J]. 微型机与应用 2015(17)
- [23].从计算机自动分词的障碍谈汉语书面语改革[J]. 语文学刊 2008(02)
- [24].基于词频学习和动态词频更新的藏文自动分词系统设计[J]. 计算机应用与软件 2014(05)
- [25].藏文自动分词中未登录词处理方法研究[J]. 计算机工程 2012(17)
- [26].国内中文自动分词技术研究综述[J]. 图书情报工作 2011(02)
- [27].中文信息处理中自动分词技术的研究与展望[J]. 科技创新与应用 2015(25)
- [28].班智达藏文自动分词系统的设计与实现[J]. 青海师范大学民族师范学院学报 2010(02)
- [29].基于计算机自动分词的研究[J]. 沈阳化工学院学报 2008(03)
- [30].基于CFRs模型的交集型歧义消解研究[J]. 电脑知识与技术 2018(18)