论文摘要
随着社会的日益信息化,人们越来越强烈地希望能够通过计算机获取到大量的信息,尤其是对生活信息的获取。人们有强烈的愿望通过自然语言语句的查询搜索到和他们的什么密切相关的信息。本地搜索就是一个致力于帮助人们实现对生活信息检索的技术,可能检索到诸如餐饮、娱乐、金融机构、旅游景点、地标建筑、加油站,甚至是停车场的信息。这个技术极大的丰富人们的生活,使人们足不出户就可以获取大量的生活信息。目前的本地搜索技术的主要搜索内容是一个被称作为POI的信息。POI(point of interest)的全称为地理兴趣点,顾名思义,就是令人感兴趣的点。每个不同的POI都分布在地图上不同的坐标点上,而本地搜索的任务就是根据用户输入的检索语句将可能的POI输出出来。为了能够满足用户的需求,就需要各种不同技术手段提取检索的准确率。但是由于存储在数据库中的POI地理兴趣点一般都为该信息点的全名,所以名称一般都比较长,而用户在输入查询语句时有时并不愿意使用全称查询。一般会选取关键字查询,或者会使用该信息点的缩略词查询。对于关键字查询,目前已经有较好的办法实现,但是对于缩略词的查询有时确无能为力。因为大量的名称缩略词和它所指的POI之间存在复杂的关系。一个有效的办法就是将这些存在复杂关系的名称缩略词和它所指代的POI之间所构成缩略词关系构造成缩略词词典。这样在进行搜索时,可以首先判断用户查询是否是一个缩略词表达形式。本文首先讨论POI信息点简介等资源的获取,随后介绍条件随即场的相关内容,并展示通过条件随机场模型来对这些资源进行命名实体识别,最后将这些提取出来的命名实体和POI信息点进行模式匹配,最终从这些资源中提取出缩略词词典的信息。实验表明通过这种方法提取出来的缩略词具有很好的效果,并且具有很好的现实意义。可以通过这样一个提取缩略词的机制扩充缩略词的词库,并最终提高该类词本地搜索的准确率。