统计与字典相结合的中文分词

统计与字典相结合的中文分词

论文题目: 统计与字典相结合的中文分词

论文类型: 硕士论文

论文专业: 软件工程

作者: 翟凤文

导师: 左万利

关键词: 中文分词,统计,字典,专有名词,歧义

文献来源: 吉林大学

发表年度: 2005

论文摘要: 本文提出了一种字典和统计相结合的中文分词方法,中文分词是中文信息处理的一个基础部分,中文分词中碰到的主要问题:专有名词、新生词的处理,歧义的消解问题。中文分词方法中机械分词法主要有基于统计和基于字典的分词方法,这两种分词方法分别的研究已经很多,但两者结合起来的方法还很少,特别是固定词典与统计相结合的分词方法,至今我还没有阅读到。基于统计的分词方法和基于字典的分词方法都各有所长,各有所短。基于统计的分词方法的突出的特点是分全率比较低,但信息处理速度快,一定条件下,能够解决新生词和专有名词,以及不易出现歧义问题;基于字典的分词方法的突出的特点是分全率和准确率很高,但是信息处理速度慢,不能够解决新生词和专有名词,而且会出现歧义问题。我们的论文就是将这两种分词方法结合起来,扬长避短,尽量提高分词的准确率、分全率、以及时间效率,尽量消解歧义。

论文目录:

第1章 绪论

1.1 中文分词产生的必然性

1.2 中文分词的发展现状

1.2.1 计算机自动分词解决中文文本分词问题

1.2.2 计算机自动分词不能彻底解决歧义字段切分

1.2.3 中文分词的特点

1.2.4 一般分词方法

第2章 基础理论

2.1 本文要解决的问题

2.1.1 中文分词要解决的问题

2.1.2 本文要解决的问题及要采用的方法

2.2 基于字典的分词方法

2.2.1 基于字典的分词方法的说明

2.2.2 基于字典的分词方法的改进

2.2.3 基于字典的分词方法与基于统计的分词方法的比较

2.3 歧义的解决

2.3.1 歧义的采集

2.3.2 基于统计的歧义的解决方法

2.3.3 基于规则的歧义解决方法

2.4 单字词处理中的可变窗口算法

第3章 统计与字典相结合的分词方法

3.1 算法的基本过程

3.2 本文中文分词的算法的实现

3.2.1 算法的主体部分流程图

3.2.2 重组字典结构

3.2.3 根据标点符号以及特殊的汉字断句

3.2.4 最大正向匹配算法rmatch(sen)流程图

3.2.5 反向最大匹配算法vmatch(sen)流程图

3.2.6 单字词处理single(sen,text)流程图

3.2.7 歧义处理multimean(rr,vv,text)的流程图

第4章 实验结果的评价

4.1 实验结果的评价参数

4.2 算法的比较一

4.3 算法的比较二

4.4 算法可以进行的补充

结论

参考文献

中文摘要

Abstract

致谢

导师及作者简介

发布时间: 2005-08-26

参考文献

  • [1].基于字的分词方法的研究与实现[D]. 游治勇.电子科技大学2015
  • [2].词典与统计相结合的傣文分词方法与实现[D]. 李慧.云南大学2016
  • [3].基于主动学习的中文分词方法研究[D]. 梁喜涛.南京邮电大学2015
  • [4].基于树形结构的中文分词方法的研究及实现[D]. 温唱.华北电力大学2013
  • [5].一种新的并发分词算法的研究与实现[D]. 李卫红.山东大学2005
  • [6].面向情感搜索的中文语料分析及其分词[D]. 刘浩.北京邮电大学2014
  • [7].中文分词方法在农业搜索中的应用研究[D]. 周利军.四川农业大学2015
  • [8].领域自适应中文分词系统的研究与实现[D]. 张少阳.沈阳航空航天大学2017
  • [9].中文文本姓名识别的研究[D]. 郭庆贺.东北师范大学2009
  • [10].中文文本分类技术研究[D]. 杨柳.河北大学2006

相关论文

  • [1].面向大规模信息检索的中文分词技术研究[D]. 王思力.中国科学院研究生院(计算技术研究所)2006
  • [2].基于条件随机场的中文分词研究[D]. 姜锋.大连理工大学2006
  • [3].词典与后缀数组相结合的中文分词[D]. 张淑梅.吉林大学2006
  • [4].基于词表结构的中文分词算法研究[D]. 贺艳艳.中国地质大学(北京)2007
  • [5].中文自动分词若干技术的研究[D]. 柴宝杰.燕山大学2007
  • [6].基于支持向量机的中文分词系统的研究[D]. 朱小娟.中南大学2007
  • [7].基于神经网络的中文分词算法的研究[D]. 张晓淼.大连理工大学2006
  • [8].基础教育资源搜索引擎中的中文分词技术研究[D]. 黄立冬.南京师范大学2006
  • [9].中文分词规范可计算化的研究与实现[D]. 许顺.苏州大学2006
  • [10].中文自动分词系统的研究[D]. 朱珣.华中师范大学2004

标签:;  ;  ;  ;  ;  

统计与字典相结合的中文分词
下载Doc文档

猜你喜欢