论文摘要
中文作为人类传播信息的重要语言工具之一,中文信息处理已经成为信息处理领域的热点研究问题。中文自动分词是中文信息处理的重要组成部分,而词典处理效率是影响中文自动分词系统性能的关键因素,因此,建立高效的分词词典具有显著的意义。本文对中文分词系统的词典结构进行了深入研究,取得了一定研究成果,已用于国家863项目中的垃圾短信监管处理,并将设计的算法申请提交了相关专利,主要研究成果如下:1.比较分析并改进了几种的词典存储和处理方法:数组—数组机制使用数组存储词条行,采用二分查找,在操作效率上不高,不利于词典的更新;双字哈希对前词条两个字哈希,使用深度为2的TRIE树,结构复杂;四字哈希机制只对四字成语有效,在应用上有局限性。本文对这些方法作一定的改进来解决效率问题。2.根据汉字GB码的特点,提出了一种比较高效的词典存储算法,将相同首字的词条作为一个文本行进行存储,而每个词条格式化为:去掉首字词条名、词条哈希值和相关属性,提高了存储空间利用率。3.利用Hash表在查找效率上优势,提出了基于Hash机制的词典查找、更新、删除、添加等操作新算法。设计一个实用的Hash函数,经实验验证冲突率极小,适合中小型词典,通过将该函数改进为适合大型词典的无冲突Hash函数。4.实现数组、链表、AVL树、Hash表(带极小冲突和无冲突两种)五种词典结构算法,对这些算法从时间复杂度和空间复杂度等方面进行详细的分析和评估,从载入、写出、文件大小和操作时间等几个方面进行实验对比,验证了基于Hash机制的词典结构算法在空间利用率比传统算法提高了近2倍,在时间效率上提高了5~6倍。5.用Java实现了基于Hash机制的词典结构模块,并提出了对该算法在词条属性上的扩充方案。
论文目录
相关论文文献
- [1].中华书局版《北京话词典》读后[J]. 北京史学 2018(01)
- [2].汉语新词语英译词典稿件中的典型问题分析[J]. 传播力研究 2020(09)
- [3].《新时代大俄汉词典》的背后——“中国辞典故事”之三[J]. 博览群书 2020(07)
- [4].牛津词典2017年度热词:“青年震荡”[J]. 世界知识 2018(01)
- [5].任务投入量假说视角下的英汉少儿图解词典对比分析——以词汇任务为例[J]. 广东外语外贸大学学报 2016(05)
- [6].汉语搭配词典存在的问题及应对策略研究[J]. 辞书研究 2017(01)
- [7].文化的传承 语言的记载——评《中华汉英大词典(上)》[J]. 辞书研究 2017(04)
- [8].论沈苇《新疆词典》的地域性与超地域性[J]. 北京教育学院学报 2017(04)
- [9].一部内容丰赡、精益求精的词典——评《实用英汉技术词典》[J]. 教育文化论坛 2015(06)
- [10].词典里的“埋伏”[J]. 现代班组 2016(09)
- [11].试论网络词典对翻译学习的影响[J]. 山西煤炭管理干部学院学报 2015(01)
- [12].论现代词典的内在教育价值[J]. 外语研究 2015(04)
- [13].抗疫词典(组诗)[J]. 诗林 2020(02)
- [14].小词典[J]. 中国诗歌 2018(06)
- [15].音乐小词典[J]. 中小学音乐教育 2009(01)
- [16].《实用汉英中西医词典》编撰体例创新探讨[J]. 疯狂英语(理论版) 2016(03)
- [17].词典例证翻译标准探索[J]. 疯狂英语(理论版) 2017(01)
- [18].《哈尔滨方言词典》补正[J]. 现代语文(语言研究版) 2010(09)
- [19].牛津词典公布2017年度热词:“青年震荡”[J]. 黄金时代(学生族) 2018(01)
- [20].英国互联网上的“众筹词典”[J]. 高中生 2018(22)
- [21].词典的故事[J]. 小学生优秀作文 2018(28)
- [22].嫉妒,还是羡慕[J]. 高中生 2017(27)
- [23].试析几部与“翻译”相关的词典之属性[J]. 环球人文地理 2014(02)
- [24].有尊严地做教育[J]. 湖北教育(综合资讯) 2014(09)
- [25].《明清吴语词典》释义探讨[J]. 中国训诂学报 2013(00)
- [26].校园魔鬼词典新编[J]. 意林(少年版) 2012(04)
- [27].词典例证研究述评[J]. 中国科教创新导刊 2012(13)
- [28].生活词典(外二首)[J]. 青年作家 2013(02)
- [29].浑河的词典[J]. 诗潮 2013(08)
- [30].会议词典[J]. 杂文月刊(选刊版) 2009(02)