本地搜索领域POI缩略词词典的研究

本地搜索领域POI缩略词词典的研究

论文摘要

随着社会的日益信息化,人们越来越强烈地希望能够通过计算机获取到大量的信息,尤其是对生活信息的获取。人们有强烈的愿望通过自然语言语句的查询搜索到和他们的什么密切相关的信息。本地搜索就是一个致力于帮助人们实现对生活信息检索的技术,可能检索到诸如餐饮、娱乐、金融机构、旅游景点、地标建筑、加油站,甚至是停车场的信息。这个技术极大的丰富人们的生活,使人们足不出户就可以获取大量的生活信息。目前的本地搜索技术的主要搜索内容是一个被称作为POI的信息。POI(point of interest)的全称为地理兴趣点,顾名思义,就是令人感兴趣的点。每个不同的POI都分布在地图上不同的坐标点上,而本地搜索的任务就是根据用户输入的检索语句将可能的POI输出出来。为了能够满足用户的需求,就需要各种不同技术手段提取检索的准确率。但是由于存储在数据库中的POI地理兴趣点一般都为该信息点的全名,所以名称一般都比较长,而用户在输入查询语句时有时并不愿意使用全称查询。一般会选取关键字查询,或者会使用该信息点的缩略词查询。对于关键字查询,目前已经有较好的办法实现,但是对于缩略词的查询有时确无能为力。因为大量的名称缩略词和它所指的POI之间存在复杂的关系。一个有效的办法就是将这些存在复杂关系的名称缩略词和它所指代的POI之间所构成缩略词关系构造成缩略词词典。这样在进行搜索时,可以首先判断用户查询是否是一个缩略词表达形式。本文首先讨论POI信息点简介等资源的获取,随后介绍条件随即场的相关内容,并展示通过条件随机场模型来对这些资源进行命名实体识别,最后将这些提取出来的命名实体和POI信息点进行模式匹配,最终从这些资源中提取出缩略词词典的信息。实验表明通过这种方法提取出来的缩略词具有很好的效果,并且具有很好的现实意义。可以通过这样一个提取缩略词的机制扩充缩略词的词库,并最终提高该类词本地搜索的准确率。

论文目录

  • 摘要
  • Abstract
  • 第1章 前言
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.2.1 命名实体识别
  • 1.2.2 缩略词词典的研究
  • 1.3 本文的主要内容
  • 第2章 数据资源
  • 2.1 地理信息数据
  • 2.2 网络资源的获取
  • 2.2.1 地理信息网站资源
  • 2.2.2 网站主页资源
  • 2.3 资源获取的讨论
  • 第3章 条件随机场模型
  • 3.1 图模型
  • 3.1.1 随机变量的条件独立性
  • 3.1.2 有向图模型
  • 3.1.3 无向图模型
  • 3.2 马尔可夫随机场和Hammersly-Clifford定理
  • 3.2.1 马尔可夫随机场
  • 3.2.2 吉布斯分布
  • 3.2.3 Hammersly-Clifford定理
  • 3.3 条件随机场
  • 3.3.1 条件随机场的原理
  • 3.3.2 条件随机场的选择
  • 3.3.3 链式条件随机场
  • 3.3.4 链式条件随机场的训练
  • 3.3.5 链式条件随机场的推理
  • 3.3.6 条件随机场的讨论
  • 3.4 讨论
  • 第4章 命名实体识别
  • 4.1 命名实体
  • 4.2 命名实体识别
  • 4.3 实验设计
  • 4.3.1 序列标注
  • 4.3.2 识别性能
  • 4.3.3 系统流程
  • 4.3.4 命名实体的提取
  • 4.4 讨论
  • 第5章 缩略词词典的构造
  • 5.1 缩略词的定义
  • 5.1.1 一般的缩略词
  • 5.1.2 地理名缩略词
  • 5.2 缩略词的提取
  • 5.2.1 提取规则
  • 5.2.2 模式匹配算法
  • 5.3 实验设计
  • 5.3.1 实验数据
  • 5.3.2 实验结果
  • 5.3.3 实验分析
  • 5.4 讨论
  • 第6章 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    本地搜索领域POI缩略词词典的研究
    下载Doc文档

    猜你喜欢