论文摘要
随着企业信息的飞速增长,企业信息检索逐渐成为信息检索领域研究的热点,中文分词作为信息检索的文本处理阶段一个重要步骤,直接影响着检索结果的准确性。学术界关于分词技术的研究一直比较多,但是目前的研究大多是通用的分词算法,专门针对企业检索应用的分词技术研究相对较少。因此,研究中文分词技术在企业信息检索中的应用有重要的理论和现实意义。本文研究了中文分词的关键技术及难点,分析了分词对大规模信息检索的影响,在此基础上结合企业信息检索中分词技术的特点,设计了中文分词系统(EIRCWS)。由于面向企业信息检索的分词算法对时间性能要求较高,本文设计了一种新的多字哈希结构的词典,改善了词典查询算法,提高了分词效率。歧义消除和未登录词识别是分词的两大技术难点。考虑到企业信息检索应用的特点,在歧义消除部分,本文重点解决交叉歧义问题,利用双向匹配结果进行比较来检测歧义,采用自定义规则来消除歧义。在未登录词识别部分,本文提出了一种新的未登录词识别方法,利用数量词识别规则和虚字辅助切分分词碎片,通过局部词频统计结合单字非词概率,使得算法在不依赖大型语料库的前提下可以有效地识别多个领域中各种类型的未登录词。实验结果表明,本文设计的分词系统,分词速度快,准确率高,而且对未登录词具有很强的识别能力,符合企业信息检索对中文自动分词的要求。
论文目录
摘要ABSTRACT第1章 绪论1.1 课题背景1.1.1 企业信息检索简介1.1.2 中文分词技术发展现状1.2 课题的提出及意义1.3 课题的研究内容1.4 本文的组织结构第2章 相关工作2.1 中文分词关键技术2.1.1 中文分词算法2.1.2 分词词典机制2.2 中文分词难点2.2.1 通用词表和切分规范2.2.2 切分歧义2.2.3 未登录词识别2.3 分词和企业信息检索的关系2.3.1 分词对企业信息检索的影响2.3.2 分词精度与检索性能的关系2.4 本章小结第3章 中文分词系统的设计3.1 设计原则3.2 系统框架3.3 词典设计3.3.1 词典结构3.3.2 词典算法3.3.3 词典存储3.4 本章小结第4章 中文分词系统的实现4.1 词典管理4.2 分词预处理4.2.1 文档抽取4.2.2 文本预切分4.3 分词4.4 歧义处理4.4.1 歧义字段检测4.4.2 交叉歧义消除4.5 未登录词识别4.5.1 分词碎片处理4.5.2 未登录词识别4.6 本章小结第5章 测试与分析5.1 系统功能测试5.2 词典性能测试5.2.1 评测指标5.2.2 测试结果与分析5.3 分词性能测试5.3.1 评测指标5.3.2 测试结果与分析5.4 本章小结第6章 总结与展望参考文献致谢
相关论文文献
标签:企业信息检索论文; 中文分词论文; 歧义处理论文; 未登录词识别论文;