基于中文分词检索技术的企业名称查重系统的研究

基于中文分词检索技术的企业名称查重系统的研究

论文摘要

企业名称是企业申请登记时,由企业名称的登记主管机关核定,经核准登记注册后方可使用,在规定的范围内享有专用权。随着贵州经济的高速发展,企业的数量正在不断增长,面对如此众多的企业名称信息,充分利用计算机系统强大的查询检索功能,对企业名称的查重、分析有着重要的理论意义和现实意义。本文针对企业名称的特点重点研究和实现一种新的企业名称查重模块,本文的主要研究工作如下:1.中文分词技术在企业名称查重系统中的运用,中文分词技术,就是指将文本中每句话,利用分词算法拆分成词,以便于计算机对文本信息进行处理和理解的过程。它应用广泛,主要应用于信息检索,信息抽取,机器翻译等自然语言处理技术等。本文采用了一种典型的基于词典的中文分词算法—正向最大匹配算法,它的思想简单,并且易于实现,但是分词的精确度和速度并不理想。针对该问题,本文添加关键词切分,提升分词的速度,提高分词的精确度。2.针对企业名称的法定依据,本文中引进同音字和多音字处理模块,提出对企业名称中的字号进行拼音转换,并用穷举法罗列出所有的发音序列,再使用发音序列对企业名称进行查重,完成企业名称查重处理。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 中文分词发展概述及现状
  • 1.3 本文的研究内容及论文结构
  • 第二章 中文分词概述
  • 2.1 中文分词简介
  • 2.1.1 中文分词的难点
  • 2.2 中文分词算法的分类
  • 2.2.1 基于字符串匹配的分词算法
  • 2.2.2 基于理解的分词算法
  • 2.2.3 基于统计的分词算法
  • 2.3 中文分词算法的利弊对比
  • 2.4 分词词典机制慨述
  • 2.4.1 基于整词二分的分词词典机制
  • 2.4.2 基于 Trie 索引树的分词词典机制
  • 2.4.3 基于逐字二分的分词词典机制
  • 2.4.4 双层 hash 的词典机制
  • 2.5 分词性能评价指标
  • 2.5.1 分词精度
  • 2.5.2 分词速度
  • 2.5.3 分词召回率
  • 2.5.4 分词准确率
  • 2.6 小结
  • 第三章 歧义消除技术与同音字和多音字处理
  • 3.1 歧义的发现
  • 3.1.1 双向扫描法
  • 3.1.2 逐词扫描法
  • 3.1.3 最长词次长词发现法
  • 3.1.4 正向最大匹配+回退一字法
  • 3.2 分词歧义消解算法介绍
  • 3.2.1 规则型歧义消解算法
  • 3.2.2 词概率法歧义消解算法
  • 3.2.3 t-测试算法
  • 3.3 歧义处理的困难
  • 3.4 同音字和多音字处理方法构思
  • 3.4.1 同音字处理
  • 3.4.2 同音字处理实施简介
  • 3.4.3 多音字处理
  • 3.4.4 多音字处理实施简介
  • 3.5 小结
  • 第四章 系统的设计与实现
  • 4.1 系统设计的目的
  • 4.2 系统总体设计
  • 4.2.1 原工商企业名称数据库的概述
  • 4.2.2 原工商企业名称查重应用情况
  • 4.2.3 系统的解决方案
  • 4.3 系统实现
  • 4.3.1 开发平台及开发工具选择
  • 4.3.2 系统实现
  • 4.4 系统的测试
  • 4.4.1 系统测试方案
  • 4.4.2 测试流程
  • 4.4.3 测试结果
  • 4.5 小结
  • 第五章 结束语
  • 致谢
  • 参考文献
  • 相关论文文献

    标签:;  ;  ;  

    基于中文分词检索技术的企业名称查重系统的研究
    下载Doc文档

    猜你喜欢