基于搜索日志的用户语义本体构建研究

基于搜索日志的用户语义本体构建研究

论文摘要

近年来,随着互联网信息技术的迅速发展,互联网上的信息资源已经达到海量级别,并且正呈指数级形式增长,海量网页数据的结构复杂性和用户查询词简短及语义模糊性等特点给现有搜索引擎的发展带来了极大的挑战。检索系统如何能够准确的理解用户输入查询词的信息需求,根据不同用户返回不同的检索结果,即根据不同的用户提供个性化的服务,这是用户越来越关心的问题。要为用户提供个性化的服务,就必须挖掘用户的相关领域知识背景,为搜索引擎提供一个面向用户的知识模型,即用户本体。一般情况下,搜索引擎搜集了大量的用户搜索日志,这些数据记录了用户历史查询词和对应点击网页的信息,通过分析这些历史数据,能够挖掘出用户的领域背景知识。本体(Ontology)作为语义网的关键技术,它通过提供一个领域的词汇和形式概念,使得信息的共享和交互变得容易和简单。本文的主要工作如下:首先,本文提出了一种新颖的用户查询词语义相似度计算方法,采用AGNES(Agglomerative Nesting)层次聚类算法,将用户查询词按用户个性化兴趣和知识背景进行主题分类。本文首先提出了基于用户搜索日志的三种用户查询词语义相似关系①基于用户原始查询词本身的相似关系,②基于用户扩展查询词的相似关系,③基于用户点击URLs的相似关系。通过分析这三种语义关系,将它们按照线性组合的方式组合,形成了一种新颖的计算用户查询词语义相似度的方法。基于这种用户查询词语义相似度函数,利用AGNES层次聚类算法,将用户查询词根据用户搜索日志中所反映的主题进行语义主题聚类,从而达到消除用户查询词语义模糊性的目的。其次,本文提出了一种利用用户查询词语义主题聚类结果和WordNet通用本体建立一个用户查询词兴趣主题领域知识模型,即用户语义本体(User Semantic Ontology)的方法。该方法过程如下①根据用户查询词语义主题聚类结果,生成用户原始查询词-用户点击文档和扩展查询词-用户点击文档之间的形式背景,②优化扩展查询词-用户点击文档之间的形式背景,合并原始查询词和优化后的扩展查询词的形式背景,并构建概念格,通过概念格-本体转化的规则,将概念格转换为初始本体,③利用WordNet优化初始本体。该用户本体表达了一个用户的兴趣偏好,然后将其应用于主题搜索引擎,进而可以把信息采集从基于关键词的相关度匹配技术层面提高到基于语义层面的查找。最后,利用VC++6.0开发应用程序进行验证。实验表明,通过本文本体构建方法,用户查询词能更好的根据用户兴趣和知识背景来区分其真实语义,消除其语义模糊性。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究动态
  • 1.1.1 用户日志应用现状
  • 1.1.2 本体研究现状
  • 1.2 研究目的与意义
  • 1.3 论文主要内容与结构
  • 2 基于用户搜索日志的查询词聚类
  • 2.1 用户查询日志
  • 2.2 聚类方法介绍
  • 2.3 基于用户日志的查询词聚类
  • 2.3.1 用户查询词聚类流程
  • 2.3.2 基于用户日志的查询会话表达
  • 2.3.3 用户查询词相似度的计算方法
  • 2.4 本章小节
  • 3 基于形式概念分析的用户本体构建方法
  • 3.1 形式概念分析相关知识
  • 3.2 本体相关知识
  • 3.2.1 本体的定义
  • 3.2.2 领域本体
  • 3.2.3 基于形式概念分析的本体构建方法
  • 3.2.4 WordNet
  • 3.3 基于 FCA 的用户本体构建方法
  • 3.3.1 优化扩展查询形式背景
  • 3.3.2 产生初始本体
  • 3.3.3 优化初始本体
  • 3.4 本章小结
  • 4 实验过程
  • 4.1 数据集
  • 4.2 系统构架
  • 4.3 实验过程
  • 4.3.1 用户查询词聚类
  • 4.3.2 用户语义本体构建
  • 5 结论与展望
  • 5.1 本文结论
  • 5.2 研究展望
  • 参考文献
  • 攻读硕士学位期间发表的论文及科研成果
  • 致谢
  • 相关论文文献

    • [1].信息搜寻中用户查询重构研究综述[J]. 图书情报工作 2014(11)
    • [2].一种基于用户查询行为模型的案例查询算法[J]. 计算机工程与应用 2012(06)
    • [3].基于CGI的用户查询系统的实现[J]. 黑龙江科技信息 2013(24)
    • [4].基于用户查询与样本间匹配度评估的分层抽样策略[J]. 计算机应用与软件 2019(08)
    • [5].基于用户查询的多关系群体挖掘改进算法[J]. 计算机技术与发展 2008(06)
    • [6].搜索引擎用户查询的广告点击意图分析[J]. 哈尔滨工业大学学报 2013(01)
    • [7].云平台下服务资源用户查询提取仿真研究[J]. 计算机仿真 2017(09)
    • [8].几种排序算法对比分析[J]. 中国新通信 2017(01)
    • [9].搜索引擎用户行为与用户满意度的关联研究[J]. 中文信息学报 2014(01)
    • [10].CBIR用户查询模式及系统构建[J]. 图书情报工作 2014(06)
    • [11].基于用户查询日志的查询聚类[J]. 北京航空航天大学学报 2010(04)
    • [12].一种高效的用户查询模式匹配算法[J]. 陕西师范大学学报(自然科学版) 2008(01)
    • [13].物联网用户查询目标自动推荐算法仿真研究[J]. 计算机仿真 2019(02)
    • [14].个性化元搜索引擎中的查询优化[J]. 重庆工学院学报(自然科学版) 2008(09)
    • [15].基于用户查询日志的双级缓存结构设计[J]. 信息网络安全 2012(06)
    • [16].基于形式概念分析的用户查询词与网页匹配方法(英文)[J]. 西华大学学报(自然科学版) 2008(06)
    • [17].一种用户连续查询中隐私风险评估的方法[J]. 智能计算机与应用 2019(03)
    • [18].基于用户查询偏好的搜索排序算法[J]. 电脑知识与技术 2013(11)
    • [19].基于用户日志双向聚类的查询扩展方法[J]. 数字技术与应用 2011(12)
    • [20].基于TF-IQF模型的查询建议[J]. 计算机工程 2010(21)
    • [21].基于半监督话题模型的用户查询日志命名实体挖掘[J]. 中文信息学报 2012(05)
    • [22].网络用户导航类查询意图识别研究[J]. 情报资料工作 2017(03)
    • [23].一种融入用户点击模型Word2Vec查询词聚类[J]. 小型微型计算机系统 2016(04)
    • [24].利用主题内容排序的伪相关反馈[J]. 计算机科学与探索 2017(05)
    • [25].用户查询日志中的中文机构名识别[J]. 现代图书情报技术 2014(01)
    • [26].利用主题标引进行查询重排序[J]. 现代图书情报技术 2014(Z1)
    • [27].学术平台用户查询扩展行为影响因素研究[J]. 情报科学 2016(09)
    • [28].面向查询的专利文献自动摘要方法[J]. 产业与科技论坛 2014(16)
    • [29].用户查询图书馆信息资源途径的调查与分析——以上海应用技术学院为例[J]. 现代情报 2011(10)
    • [30].结合用户日志的局部上下文分析方法[J]. 计算机工程与应用 2012(12)

    标签:;  ;  ;  ;  

    基于搜索日志的用户语义本体构建研究
    下载Doc文档

    猜你喜欢