论文摘要
为了更精确地检索信息,越来越多的长查询(Long Query)被用于信息检索中。但是目前很多搜索引擎并不能很好地处理长查询。这是因为长查询在带来较准确匹配的同时会带来较多的不相关信息,从而在一定程度上干扰用户的检索。查询切分就是在此背景下提出的。查询切分的目的是将查询分成有意义的若干个查询块再进行检索,因为这有利于检索系统根据有意义的查询块来分析用户的搜索意图,从而反馈给用户更合适的结果。我们在本文中提出了一种基于计算查询词关系在其主特征空间相似度的切分模型。在本模型中,我们根据查询词的N元组(N-gram)之间的频率来建立查询词之间的关系矩阵。并将此关系矩阵映射到其特征主空间进行查询切分。不仅如此,我们还提出了一种确定主特征空间维数k的方法。实验表明我们的算法相对其它算法(基于MI、EM的切分方法)有着很大的提高(在F-Measure上分别提高了35.8%和17.7%)。在此查询切分工作基础上,根据查询切分中的不足,比如切分后的某些查询词(组)是没有意义的且切分块上也没有一定的权重,因此,我们提出了对互联网中的长查询提取其关键短语的做法。同时我们的工作是较早对互联网长查询提取其关键短语的研究。受到谱聚类以及前面切分工作的启发,我们首先从长查询中提取为短语,其次对每个短语进行赋予权重,并根据每个短语权重的大小来判定该短语是否为关键短语。在此工作中,我们进一步深入研究和探讨了查询切分工作中相关问题,并在如何表示查询词之间的关系、如何确定主特征空间的维数等方面上给出了更优的解决方案。通过与基于名词短语提取、TFIDF方法关键短语提取以及基于k-means方法的关键短语提取等方法的比较,我们的算法在从长网络查询中提取关键短语取得了出色的效果。我们在本文的最后给出查询切分开发工作中的相关细节,并以最大匹配切分来辅助我们的切分。该实现方法不仅在切分速度上面得到了大幅的提升并且还可以解决一些特殊长查询切分中遇到的难题。随后,我们就长查询关键短语的提取在查询建议、目录搜索中给出了具体的分析和应用。
论文目录
相关论文文献
- [1].关键短语生成研究现状[J]. 现代计算机 2020(07)
- [2].基于协同训练的电商领域短语挖掘[J]. 计算机工程 2020(04)
- [3].基于短语成分表示的中文关系抽取[J]. 数据采集与处理 2020(03)
- [4].基于风险短语挖掘的知识聚合模型研究[J]. 情报理论与实践 2020(08)
- [5].基于语言和文化视角下的“吃字短语”研究[J]. 山西能源学院学报 2019(01)
- [6].三项以上联合短语的特征分析[J]. 兰州文理学院学报(社会科学版) 2017(01)
- [7].基于多策略过滤的汉日多词短语抽取和对齐[J]. 山东大学学报(理学版) 2015(09)
- [8].短语知识在文言阅读考查中的应用[J]. 新作文(语文教学研究) 2019(05)
- [9].高中英语教学中的短语积累及扩展探析[J]. 读写算 2019(04)
- [10].论比况短语[J]. 语文学刊 2010(15)
- [11].我会用“的”字短语[J]. 快乐作文 2017(45)
- [12].短语连一连(英文)[J]. 阅读 2018(Z5)
- [13].好记实用的押韵短语[J]. 初中生 2018(Z6)
- [14].中考英语高频短语“连连看”[J]. 初中生天地 2017(33)
- [15].短语连一连[J]. 疯狂英语(小学版) 2016(06)
- [16].别样的短语教学 精彩的语用训练[J]. 小学教学设计 2016(22)
- [17].短语连一连[J]. 疯狂英语(小学版) 2016(11)
- [18].短语连一连[J]. 阅读 2016(77)
- [19].主动出击 巧“默”短语[J]. 小学教学设计 2015(06)
- [20].四字短语 “语”重心长[J]. 语文天地 2015(14)
- [21].短语动词考点解读[J]. 初中生之友 2013(29)
- [22].孔庆蕾短语(组诗)[J]. 海燕 2015(06)
- [23].有关“mouth”的趣味短语[J]. 青苹果 2012(04)
- [24].have引导的短语[J]. 小学教学设计 2012(36)
- [25].美国人最爱用的个性短语[J]. 家教世界 2013(01)
- [26].怎样扩词成短语[J]. 作文世界 2013(Z2)
- [27].有这样一种四字短语[J]. 初中生 2013(Z5)
- [28].编辑短语[J]. 民间传奇故事(A卷) 2009(06)
- [29].运用口诀 巧辨易混短语[J]. 中考金刊 2009(01)
- [30].运用口诀巧辨易混短语[J]. 学生之友(初中版)(下) 2010(01)