论文摘要
企业名称是企业申请登记时,由企业名称的登记主管机关核定,经核准登记注册后方可使用,在规定的范围内享有专用权。随着贵州经济的高速发展,企业的数量正在不断增长,面对如此众多的企业名称信息,充分利用计算机系统强大的查询检索功能,对企业名称的查重、分析有着重要的理论意义和现实意义。本文针对企业名称的特点重点研究和实现一种新的企业名称查重模块,本文的主要研究工作如下:1.中文分词技术在企业名称查重系统中的运用,中文分词技术,就是指将文本中每句话,利用分词算法拆分成词,以便于计算机对文本信息进行处理和理解的过程。它应用广泛,主要应用于信息检索,信息抽取,机器翻译等自然语言处理技术等。本文采用了一种典型的基于词典的中文分词算法—正向最大匹配算法,它的思想简单,并且易于实现,但是分词的精确度和速度并不理想。针对该问题,本文添加关键词切分,提升分词的速度,提高分词的精确度。2.针对企业名称的法定依据,本文中引进同音字和多音字处理模块,提出对企业名称中的字号进行拼音转换,并用穷举法罗列出所有的发音序列,再使用发音序列对企业名称进行查重,完成企业名称查重处理。
论文目录
摘要Abstract第一章 绪论1.1 研究背景1.2 中文分词发展概述及现状1.3 本文的研究内容及论文结构第二章 中文分词概述2.1 中文分词简介2.1.1 中文分词的难点2.2 中文分词算法的分类2.2.1 基于字符串匹配的分词算法2.2.2 基于理解的分词算法2.2.3 基于统计的分词算法2.3 中文分词算法的利弊对比2.4 分词词典机制慨述2.4.1 基于整词二分的分词词典机制2.4.2 基于 Trie 索引树的分词词典机制2.4.3 基于逐字二分的分词词典机制2.4.4 双层 hash 的词典机制2.5 分词性能评价指标2.5.1 分词精度2.5.2 分词速度2.5.3 分词召回率2.5.4 分词准确率2.6 小结第三章 歧义消除技术与同音字和多音字处理3.1 歧义的发现3.1.1 双向扫描法3.1.2 逐词扫描法3.1.3 最长词次长词发现法3.1.4 正向最大匹配+回退一字法3.2 分词歧义消解算法介绍3.2.1 规则型歧义消解算法3.2.2 词概率法歧义消解算法3.2.3 t-测试算法3.3 歧义处理的困难3.4 同音字和多音字处理方法构思3.4.1 同音字处理3.4.2 同音字处理实施简介3.4.3 多音字处理3.4.4 多音字处理实施简介3.5 小结第四章 系统的设计与实现4.1 系统设计的目的4.2 系统总体设计4.2.1 原工商企业名称数据库的概述4.2.2 原工商企业名称查重应用情况4.2.3 系统的解决方案4.3 系统实现4.3.1 开发平台及开发工具选择4.3.2 系统实现4.4 系统的测试4.4.1 系统测试方案4.4.2 测试流程4.4.3 测试结果4.5 小结第五章 结束语致谢参考文献
相关论文文献
标签:企业名称论文; 中文分词论文; 分词算法论文;