上下文感知的Web搜索关键技术研究

论文摘要

随着Internet的爆炸性增长,WWW已经发展成为包含多种信息资源、站点遍布全球的巨大动态信息服务网络,为用户提供了一个极具价值的信息源,实现了全世界人们信息共享的愿望。但是,也正是由于海量信息所造成的“信息过载”,刺激了对高效的Web信息检索技术的需求。2002年9月在美国麻省理工学院智能信息检索研究中心（CⅡR）召开的未来信息检索挑战的国际会议上,上下文检索（Contextual Retrieval）被一致认为是信息检索的长期挑战。2004年7月和2005年7月又先后两次召开了在上下文中的信息检索（IRⅰX）的国际会议。在信息检索活动中,无论是信息需求的用户,还是用户所需的信息,都是处于各自的上下文中。一方面,用户处于Task Context、User Context、QueryContext等上下文之中;另一方面,Web信息则处于Author Context、Link Context、Structural Context、Path Context等上下文之中。为了能向用户提供高质量的信息,信息检索模型必须将两方面的上下文有机地结合起来,建立上下文感知（Context-Aware）的信息检索模型。根据信息检索领域的战略目标以及Web search的现状,本文对上下文检索展开了深入的研究,提出了可以解决用户的信息查询和相似页面搜索的上下文感知的检索模型,并基于该模型主要完成了以下工作:1)感知或获取用户的查询意图或主题:将用户的查询基于上下文和参考本体获取一个参考本体中的局部子树,该子树反映了用户查询的真实意图或主题。本文给出了获取该子树的一系列相关算法。2)对主题子树的扩展:基于1)中获得的主题子树,将叶子节点分别基于参考本体中的ISA关系和非ISA关系进行扩展,从而得到一个以用户的查询词为中心的概念图,称为用户的个性化概念图。以个性化概念图中的关键词为特征项来表示Web页面,即Web页面的信息内容限制在该个性化概念图所张的信息子空间中,而个性化概念图中概念之间的度量关系将成为页面链接权重的度量依据。本文给出了这种个性化度量的一系列相关算法。3)感知Web页面作者的语义信息:Web页面作者是需求信息的诸多上下文之一,页面作者构成的社群网络的主题与页面构成的超链网络的主题具有很强的相关性甚至是同一主题,因此有必要对这个网络进行研究。本文引入“简单文档”的概念,简单文档通过一阶近邻构成平面式的“复合文档”,复合文档构成立体式的数据集,对数据集建立张量模型,通过张量分解,研究社群网络中成员之间的语义相似度。本文给出了这种相似度的一系列相关算法。4)感知Web页面之间的链接结构上下文:页面通过页面之间的超链接构成复杂的链接网络,从而构成需求信息的链接结构上下文。将1)和2)获得的用户的个性化概念图的拓扑结构应用于链接结构上下文:一方面,以个性化概念图中的概念（关键词）作为特征项将页面表达为向量,特征项的权重类似于TF-IDF的CF-IDF计算;另一方面,链接赋予权重,权重计算的依据是用户概念图中概念之间的个性化语义相似度。通过邻接权重矩阵计算页面的权威度量,从而按照权威度量对页面排序。本文给出了这种排序的一系列相关算法。显然这种排序随着个性化概念图的变化而变化,有效地克服了“作者欺骗”、“主题漂移”和“千人一面”的问题。5)感知Web页面之间的链接锚文本对链入页面的主题或语义指示:在4)的带权链接矩阵的基础上,增加链接锚文本作为第三轴或模式,从而建立了数据的张量模型。由于张量在数学理论及算法上还不成熟,本文将张量模型发展为三个矩阵表示的个性化模型,从而有效地利用了在数学理论上十分成熟的矩阵理论及其算法。本文的研究内容基于作者所参与的上海市科学技术委员会科技攻关项目（GrantNo.055115001）《面向语音服务的志愿者信息推送服务平台》的研究,该项目以2010年上海世博会为应用场景,实现了世博MIA系统。本文提出的算法在系统中得到了验证,结果都显示出它们能有效的解决相关问题,并具有较高的性能。因此,本文的研究成果对于提高网络搜索的准确性具有较大的实用价值。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 信息检索的发展

1.1.1 信息检索的定义与基本原理

1.1.2 信息检索的模型

1.1.3 信息检索的分类

1.1.4 信息检索的发展

1.2 Web search

1.2.1 Web信息资源

1.2.2 Web信息检索

1.2.3 搜索引擎的组成

1.2.4 Web search与IR的关系

1.3 现代信息检索面临的挑战

1.3.1 现代信息检索面临的挑战

1.3.2 Web search的有效性问题

1.3.3 Web search的效率问题

1.3.4 Web search有效性与效率的关系

1.4 上下文感知的Web搜索

1.4.1 上下文感知的信息检索

1.4.2 Web搜索的上下文环境

1.4.3 个性化Web搜索与上下文搜索的关系

1.4.4 本文提出的解决方案

1.4.5 本文研究的主要内容和组织结构

第二章个性化搜索关键技术及链接分析算法

2.1 个性化信息搜索

2.2 用户建模技术

2.2.1 信息采集

2.2.2 用户描述文件

2.2.3 用户模型的学习与更新

2.3 信息过滤技术

2.3.1 基于内容的信息过滤技术

2.3.2 基于协作的信息过滤技术

2.4 Web链接分析

2.5 PageRank算法

2.5.1 PageRank算法

2.5.2 PageRank算法的改进

2.6 HITS算法

2.6.1 HITS算法

2.6.2 HITS算法存在的问题

2.6.3 HITS算法的改进

2.7 本章小结

第三章基于本体感知用户查询

3.1 用户上下文

3.2 参考本体-Wordnet

3.3 语义相似度

3.3.1 语义标识

3.3.2 公共语义

3.3.3 语义相似度

3.4 用户上下文中感知用户查询

3.4.1 词义排岐

3.4.2 兴趣主题的发现

3.4.3 查询意图的获取

3.5 查询和任务上下文中感知用户查询

3.6 本章小结

第四章个性化概念图的信息度量

4.1 语义相似度研究现状

4.2 个性化概念图的获取

4.2.1 个性化概念图的获取

4.2.2 个性化概念图的表示

4.3 个性化概念图中概念的权重

4.3.1 概念的权重定义

4.3.2 概念图的概率转移矩阵

4.3.3 路径的转移概率

4.3.4 概念节点的概率

4.3.5 计算概念节点概率算法

4.4 个性化概念图中概念的语义信息度量

4.4.1 语义信息度量

4.4.2 概念之间转移概率计算

4.5 概念间的个性化语义相似度量

4.6 小结

第五章基于社群网络的作者相似度量

5.1 背景介绍

5.2 协同引用分析研究现状

5.3 符号约定

5.4 数据建模

5.4.1 数据的获取

5.4.2 数据的筛选

5.4.3 数据建模

5.5 张量分解

5.6 模糊概念与相似度量

5.7 实验及评价

5.7.1 数据的获取和统计特征

5.7.2 数据筛选

5.7.3 数据建模

5.7.4 三阶张量X分解

5.8 本章小结

第六章基于内容和链接的上下文检索模型

6.1 背景介绍

6.1.1 基于内容检索模型存在的问题

6.1.2 基于链接分析检索模型存在的问题

6.1.3 通用检索模型存在的问题

6.1.4 问题的解决方法

6.2 基于内容的潜语义LSI模型

6.2.1 潜语义LSI模型

6.2.2 个性化的潜语义CLSI模型

6.3 基于链接分析的HITS模型

6.4 基于内容和链接的个性化CHITS模型

6.4.1 文档的个性化CF-IDF表示

6.4.2 个性化连结权重

6.4.3 有向图的个性化连结矩阵

6.4.4 文档权威度量

6.5 实验与评价

6.6 本章小结

第七章基于超文本和链接的上下文检索模型

7.1 背景介绍

7.2 相关工作

7.3 基于超文本的张量模型的建立

7.3.1 TOPHITS模型

7.3.2 社区发现及主题提取

7.4 基于超文本的主题模型THTA建立

7.4.1 THTA（Topic Hub Topic Authority）模型

7.4.2 计算页面和锚文字在主社区中的分值

7.4.3 次主流社区的发现与主题提取

7.5 扩展模型ETHTA的建立

7.6 上下文感知的个性化扩展模型CTHAT

7.7 模型分析与比较

7.7.1 模型之间的联系

7.7.2 模型之间的区别

7.8 本章小结

第八章.总结与展望

8.1 全文总结

8.2 成果的应用

8.3 未来展望

参考文献

附录-作者攻读博士学位期间已发表的学术论文

致谢

上下文感知的Web搜索关键技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢