论文摘要
随着Internet的爆炸性增长,WWW已经发展成为包含多种信息资源、站点遍布全球的巨大动态信息服务网络,为用户提供了一个极具价值的信息源,实现了全世界人们信息共享的愿望。但是,也正是由于海量信息所造成的“信息过载”,刺激了对高效的Web信息检索技术的需求。2002年9月在美国麻省理工学院智能信息检索研究中心(CⅡR)召开的未来信息检索挑战的国际会议上,上下文检索(Contextual Retrieval)被一致认为是信息检索的长期挑战。2004年7月和2005年7月又先后两次召开了在上下文中的信息检索(IRⅰX)的国际会议。在信息检索活动中,无论是信息需求的用户,还是用户所需的信息,都是处于各自的上下文中。一方面,用户处于Task Context、User Context、QueryContext等上下文之中;另一方面,Web信息则处于Author Context、Link Context、Structural Context、Path Context等上下文之中。为了能向用户提供高质量的信息,信息检索模型必须将两方面的上下文有机地结合起来,建立上下文感知(Context-Aware)的信息检索模型。根据信息检索领域的战略目标以及Web search的现状,本文对上下文检索展开了深入的研究,提出了可以解决用户的信息查询和相似页面搜索的上下文感知的检索模型,并基于该模型主要完成了以下工作:1)感知或获取用户的查询意图或主题:将用户的查询基于上下文和参考本体获取一个参考本体中的局部子树,该子树反映了用户查询的真实意图或主题。本文给出了获取该子树的一系列相关算法。2)对主题子树的扩展:基于1)中获得的主题子树,将叶子节点分别基于参考本体中的ISA关系和非ISA关系进行扩展,从而得到一个以用户的查询词为中心的概念图,称为用户的个性化概念图。以个性化概念图中的关键词为特征项来表示Web页面,即Web页面的信息内容限制在该个性化概念图所张的信息子空间中,而个性化概念图中概念之间的度量关系将成为页面链接权重的度量依据。本文给出了这种个性化度量的一系列相关算法。3)感知Web页面作者的语义信息:Web页面作者是需求信息的诸多上下文之一,页面作者构成的社群网络的主题与页面构成的超链网络的主题具有很强的相关性甚至是同一主题,因此有必要对这个网络进行研究。本文引入“简单文档”的概念,简单文档通过一阶近邻构成平面式的“复合文档”,复合文档构成立体式的数据集,对数据集建立张量模型,通过张量分解,研究社群网络中成员之间的语义相似度。本文给出了这种相似度的一系列相关算法。4)感知Web页面之间的链接结构上下文:页面通过页面之间的超链接构成复杂的链接网络,从而构成需求信息的链接结构上下文。将1)和2)获得的用户的个性化概念图的拓扑结构应用于链接结构上下文:一方面,以个性化概念图中的概念(关键词)作为特征项将页面表达为向量,特征项的权重类似于TF-IDF的CF-IDF计算;另一方面,链接赋予权重,权重计算的依据是用户概念图中概念之间的个性化语义相似度。通过邻接权重矩阵计算页面的权威度量,从而按照权威度量对页面排序。本文给出了这种排序的一系列相关算法。显然这种排序随着个性化概念图的变化而变化,有效地克服了“作者欺骗”、“主题漂移”和“千人一面”的问题。5)感知Web页面之间的链接锚文本对链入页面的主题或语义指示:在4)的带权链接矩阵的基础上,增加链接锚文本作为第三轴或模式,从而建立了数据的张量模型。由于张量在数学理论及算法上还不成熟,本文将张量模型发展为三个矩阵表示的个性化模型,从而有效地利用了在数学理论上十分成熟的矩阵理论及其算法。本文的研究内容基于作者所参与的上海市科学技术委员会科技攻关项目(GrantNo.055115001)《面向语音服务的志愿者信息推送服务平台》的研究,该项目以2010年上海世博会为应用场景,实现了世博MIA系统。本文提出的算法在系统中得到了验证,结果都显示出它们能有效的解决相关问题,并具有较高的性能。因此,本文的研究成果对于提高网络搜索的准确性具有较大的实用价值。
论文目录
相关论文文献
- [1].一种基于混合语义相似度度量方法的本体元匹配技术[J]. 宝鸡文理学院学报(自然科学版) 2020(02)
- [2].基于本体的语义相似度计算研究[J]. 郑州大学学报(理学版) 2019(02)
- [3].一种引入实体的地理语义相似度混合计算模型[J]. 浙江大学学报(理学版) 2018(02)
- [4].制造资源本体的概念语义相似度研究[J]. 计算机应用研究 2016(01)
- [5].基于农业本体的语义相似度算法及其在农作物本体中的应用[J]. 农业工程学报 2016(16)
- [6].语义相似度融合检错码跨层链路分流算法[J]. 科技通报 2015(04)
- [7].基于语义相似度的本体概念更新方法研究[J]. 计算机应用与软件 2018(04)
- [8].基于语义构词的汉语词语语义相似度计算[J]. 中文信息学报 2017(01)
- [9].基于信息熵的医疗概念语义相似度算法[J]. 计算机工程与设计 2017(06)
- [10].基于互信息的概念语义相似度算法[J]. 通信技术 2016(09)
- [11].基于《知网》的词语语义相似度算法[J]. 计算机工程 2014(12)
- [12].语义相似度计算在语义标注中的应用[J]. 计算机工程与应用 2013(04)
- [13].一种基于本体概念语义相似度的查询优化方法[J]. 电脑与信息技术 2012(04)
- [14].改进的主客观结合的词语语义相似度算法[J]. 计算机技术与发展 2012(09)
- [15].一种医疗本体语义相似度算法的设计[J]. 软件工程师 2011(Z1)
- [16].基于知网的语义相似度的改进算法[J]. 电子技术 2010(05)
- [17].句子语义相似度计算[J]. 计算机工程与应用 2010(36)
- [18].基于地理本体的综合语义相似度算法[J]. 兰州大学学报(自然科学版) 2017(01)
- [19].一种利用语义相似度改进问答摘要的方法[J]. 北京大学学报(自然科学版) 2017(02)
- [20].基于差分优化语义相似度模型的智能组卷系统[J]. 科教导刊(上旬刊) 2016(02)
- [21].语义计量:基于语义相似度评价科研出版物贡献的计量方法[J]. 情报理论与实践 2015(04)
- [22].基于证据理论的单词语义相似度度量[J]. 自动化学报 2015(06)
- [23].一种自发性口语评测文本语义相似度评分特征提取方法[J]. 集成技术 2013(01)
- [24].一种基于本体的语义相似度计算方法[J]. 情报科学 2012(08)
- [25].语义相似度的基因名标准化方法[J]. 计算机工程与应用 2011(35)
- [26].资源共享关联的语义相似度算法[J]. 福建电脑 2010(03)
- [27].基于语义相似度的数据服务分类方法[J]. 信息技术 2017(12)
- [28].基于特定领域的加权语义相似度算法研究[J]. 成都大学学报(自然科学版) 2015(03)
- [29].一种混合型的句子语义相似度计算方法[J]. 科学技术与工程 2014(28)
- [30].基于概念语义相似度计算模型的信息检索研究[J]. 计算机应用与软件 2013(06)
标签:信息检索论文; 上下文检索论文; 个性化语义相似度论文; 张量论文; 链接分析论文; 权重论文; 奇异值分解论文;