中文分词算法在GIS中的应用研究

中文分词算法在GIS中的应用研究

论文摘要

随着科技的进步,网络技术的不断发展,地理信息系统也逐渐应用到各个方面并渗入到人们的日常生活当中。针对各阶层用户提供一种基于自然语言的地理信息系统查询接口具有广阔的开发前景。接口的核心工作就是将自然语言转化成计算机可以识别的机器语言,其首要任务就是将自然语言查询语句进行切分和词性筛选,这也是本文的工作重点。首先,将数据逻辑划分为通用词典、空间对象词典和空间关系词典,对字典中的各种词性进行总结并用字符表示。在基于Trie索引树的分词词典的数据结构中加入“判断标示”,用以给后续分词算法进行判定使用。高频前缀降低了Trie索引树的空间浪费并降低了树的深度。其次,基于逆向最大匹配算法的“长词优先”原则,提出了根据“最长词可能性”原则选择匹配首字的分词方法,算法过程中同样处理长词覆盖短词的情况。该算法的时间复杂度为O(S)是线性的。最后,通过浅层词性筛选算法,解决数据多词性和多词性描述问题。通过该算法,获得查询语句中各词的唯一词性描述信息。链式栈结构降低了空间复杂度,该算法的正确性约为90%。根据上述算法实现了用于地理信息系统的自然语言查询语句切分、词性筛选系统。实验结果表明,该系统在速度上和正确性上做到了均衡,正确性有效地提高。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题的背景和意义
  • 1.2 地理信息系统的研究内容及进展
  • 1.2.1 地理信息系统的研究内容
  • 1.2.2 地理信息系统的国外研究进展
  • 1.2.3 地理信息系统的国内研究进展
  • 1.3 自然语言理解研究内容及进展
  • 1.4 数据库自然语言查询接口研究进展
  • 1.4.1 数据库自然语言查询接口的国外研究进展
  • 1.4.2 数据库自然语言查询接口的国内研究进展
  • 1.5 本文的主要内容
  • 第二章 切分、词性筛选系统的相关知识及模型
  • 2.1 受限汉语与ER模型
  • 2.1.1 受限汉语
  • 2.1.2 ER模型
  • 2.1.3 系统实现的可能性
  • 2.2 词典的数据结构和Trie索引树
  • 2.2.1 词典数据结构
  • 2.2.2 Trie索引树
  • 2.3 自动分词算法的分类
  • 2.3.1 基于字符串匹配的分词方法
  • 2.3.2 基于理解的分词方法
  • 2.3.3 基于统计的分词方法
  • 2.4 自然语言查询GIS接口模型及切分、词性筛选系统模型
  • 2.4.1 自然语言查询GIS接口模型
  • 2.4.2 切分、词性筛选系统模型
  • 2.5 本章小结
  • 第三章 分词词典的设计
  • 3.1 分词词典的设计
  • 3.1.1 通用词典
  • 3.1.2 空间对象专用词典
  • 3.1.3 空间关系词典
  • 3.2 改进的基于Trie索引树的分词词典数据结构
  • 3.3 改进的基于Trie索引树的分词词典的空间复杂度分析
  • 3.4 本章小结
  • 第四章 基于"最长词可能性"的分词算法
  • 4.1 基于"最长词可能性"的分词算法
  • 4.1.1 基于"最长词可能性"的分词算法的相关知识
  • 4.1.2 基于"最长词可能性"的分词算法思想及简要流程图
  • 4.1.3 基于"最长词可能性"的分词算法详细步骤及流程图
  • 4.2 基于"最长词可能性"的分词算法的性能评估
  • 4.2.1 算法的时间复杂度分析
  • 4.2.2 算法的正确性
  • 4.3 本章小结
  • 第五章 浅层词性筛选算法在GIS中的应用
  • 5.1 浅层词性筛选算法
  • 5.1.1 应用于浅层词性筛选算法的结构分析
  • 5.1.2 浅层词性筛选算法
  • 5.2 浅层词性筛选算法的性能评估
  • 5.2.1 算法的时间复杂度
  • 5.2.2 算法的正确性
  • 5.2.3 算法的空间复杂度
  • 5.3 本章小结
  • 第六章 总结与展望
  • 6.1 论文研究工作总结
  • 6.2 未来的研究方向和展望
  • 参考文献
  • 致谢
  • 攻读学位期间主要研究成果
  • 相关论文文献

    • [1].中文分词算法研究与分析[J]. 物联网技术 2016(01)
    • [2].基于词典的中文分词算法及其性能评估[J]. 电子技术与软件工程 2015(15)
    • [3].一种改进的最大匹配分词算法研究[J]. 现代商贸工业 2010(09)
    • [4].基于哈希算法的中文分词算法的改进[J]. 图书情报工作 2008(06)
    • [5].一种基于改进最大匹配快速中文分词算法[J]. 科技创新导报 2009(09)
    • [6].基于双字词的动态最大匹配分词算法的研究[J]. 太原科技大学学报 2009(03)
    • [7].一种改进的统计与后串最大匹配的中文分词算法研究[J]. 计算机工程与科学 2008(08)
    • [8].问答系统的汉语分词算法研究[J]. 数字技术与应用 2012(05)
    • [9].改进的正向最大匹配分词算法[J]. 计算机工程与设计 2010(11)
    • [10].一种改进的基于词频统计的中文分词算法研究[J]. 信息技术 2008(04)
    • [11].基于汉语拼音首字母索引的混合分词算法[J]. 计算机系统应用 2016(04)
    • [12].两种中文分词算法在云计算平台上的实现及比较[J]. 网络安全技术与应用 2014(12)
    • [13].一种适用于移动搜索的中文分词算法[J]. 西安邮电大学学报 2015(04)
    • [14].一种中文自然语言表达交通信息的跨阶分词算法[J]. 武汉大学学报(信息科学版) 2009(08)
    • [15].中文分词算法研究综述[J]. 成组技术与生产现代化 2018(03)
    • [16].基于领域词典的动态规划分词算法[J]. 南京理工大学学报 2019(01)
    • [17].基于最佳粒度匹配的中文分词算法的研究[J]. 自动化与仪器仪表 2016(07)
    • [18].基于统计的云搜索中文分词算法[J]. 西北大学学报(自然科学版) 2015(04)
    • [19].中文分词改进算法在物理教学中的应用[J]. 考试周刊 2011(26)
    • [20].中文分词算法解析[J]. 电脑知识与技术 2009(01)
    • [21].中文分词算法研究[J]. 微计算机应用 2008(08)
    • [22].基于中文分词算法的英语学习资源查询系统研究[J]. 教育教学论坛 2014(38)
    • [23].自学习分词算法在科研项目查重系统中的应用[J]. 科技通报 2013(06)
    • [24].中文分词算法综述[J]. 黑龙江科技信息 2012(08)
    • [25].中文分词算法概述[J]. 电脑知识与技术 2009(10)
    • [26].一种改进的最大匹配中文分词算法[J]. 计算机技术与发展 2011(10)
    • [27].面向文本知识管理的自适应中文分词算法[J]. 重庆大学学报 2010(10)
    • [28].中文分词算法研究综述[J]. 情报探索 2008(11)
    • [29].中文分词算法在自然语言处理技术中的研究及应用[J]. 信息与电脑(理论版) 2011(24)
    • [30].中文分词算法在搜索引擎应用中的研究[J]. 中小企业管理与科技(下旬刊) 2019(01)

    标签:;  ;  ;  ;  

    中文分词算法在GIS中的应用研究
    下载Doc文档

    猜你喜欢