面向企业信息检索的中文分词系统的研究与实现

论文摘要

随着企业信息的飞速增长,企业信息检索逐渐成为信息检索领域研究的热点,中文分词作为信息检索的文本处理阶段一个重要步骤,直接影响着检索结果的准确性。学术界关于分词技术的研究一直比较多,但是目前的研究大多是通用的分词算法,专门针对企业检索应用的分词技术研究相对较少。因此,研究中文分词技术在企业信息检索中的应用有重要的理论和现实意义。本文研究了中文分词的关键技术及难点,分析了分词对大规模信息检索的影响,在此基础上结合企业信息检索中分词技术的特点,设计了中文分词系统(EIRCWS)。由于面向企业信息检索的分词算法对时间性能要求较高,本文设计了一种新的多字哈希结构的词典,改善了词典查询算法,提高了分词效率。歧义消除和未登录词识别是分词的两大技术难点。考虑到企业信息检索应用的特点,在歧义消除部分,本文重点解决交叉歧义问题,利用双向匹配结果进行比较来检测歧义,采用自定义规则来消除歧义。在未登录词识别部分,本文提出了一种新的未登录词识别方法,利用数量词识别规则和虚字辅助切分分词碎片,通过局部词频统计结合单字非词概率,使得算法在不依赖大型语料库的前提下可以有效地识别多个领域中各种类型的未登录词。实验结果表明,本文设计的分词系统,分词速度快,准确率高,而且对未登录词具有很强的识别能力,符合企业信息检索对中文自动分词的要求。

论文目录

摘要

ABSTRACT

第1章绪论

1.1 课题背景

1.1.1 企业信息检索简介

1.1.2 中文分词技术发展现状

1.2 课题的提出及意义

1.3 课题的研究内容

1.4 本文的组织结构

第2章相关工作

2.1 中文分词关键技术

2.1.1 中文分词算法

2.1.2 分词词典机制

2.2 中文分词难点

2.2.1 通用词表和切分规范

2.2.2 切分歧义

2.2.3 未登录词识别

2.3 分词和企业信息检索的关系

2.3.1 分词对企业信息检索的影响

2.3.2 分词精度与检索性能的关系

2.4 本章小结

第3章中文分词系统的设计

3.1 设计原则

3.2 系统框架

3.3 词典设计

3.3.1 词典结构

3.3.2 词典算法

3.3.3 词典存储

3.4 本章小结

第4章中文分词系统的实现

4.1 词典管理

4.2 分词预处理

4.2.1 文档抽取

4.2.2 文本预切分

4.3 分词

4.4 歧义处理

4.4.1 歧义字段检测

4.4.2 交叉歧义消除

4.5 未登录词识别

4.5.1 分词碎片处理

4.5.2 未登录词识别

4.6 本章小结

第5章测试与分析

5.1 系统功能测试

5.2 词典性能测试

5.2.1 评测指标

5.2.2 测试结果与分析

5.3 分词性能测试

5.3.1 评测指标

5.3.2 测试结果与分析

5.4 本章小结

第6章总结与展望

参考文献

致谢

面向企业信息检索的中文分词系统的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢