论文摘要
下一代搜索引擎的一个突出特点是个性化,个性化信息检索是以用户为中心的信息检索技术,它获取以多种形式表达的用户需求(包括显式的、隐式的以及相关用户的需求),并综合利用这些用户信息,提高信息检索系统的性能。作为个性化检索中的重要研究子课题,相似用户群的建立与更新的任务是,通过对用户检索和浏览历史的分析,建立兴趣相似的用户群,并随着用户信息和检索领域的变化对相似用户群进行更新。相似用户群的建立与更新任务面临的主要问题是,缺乏合理的任务划分和标准评测集,无法对相似用户群系统进行公正的评价。因此,本文通过对个性化检索进行合理的任务划分,将相似用户群划分为一个独立的子任务,并利用开发的语料标注辅助系统,为其建立了标准评测集,使得可以对相似用户群的系统进行公正的评价和比较。在相似用户群的研究中,由于用户间共同评价过的网页较少,数据稀疏成为限制相似用户群建立效果的重要问题,因此,本文对相似用户群建立的研究主要集中在解决数据稀疏问题上。本文提出了基于相关性模型的相似用户群建立方法,采用相关性模型,利用相似领域中的相似用户,对当前领域中的用户查看数据进行扩充,以解决数据稀疏问题。同时,根据实际情况,随着领域的不同对相似用户群不断进行更新,以使相似用户群的建立更加准确。实验语料为标注者针对天网100G语料进行的检索行为和标注的答案,评测指标采用错检率、漏检率和系统性能损耗代价。此方法的性能在测试语料集上比baseline方法提高了7.12%,说明基于相关性模型的相似用户群方法可以很好地解决数据稀疏,同时由于利用用户群兴趣挖掘单个用户兴趣,防止了用户兴趣判断的偏差,提高相似用户群建立的效果。
论文目录
摘要Abstract第1章 绪论1.1 课题背景1.2 课题的研究目的和意义1.2.1 课题的研究目的1.2.2 课题的研究意义1.2.3 相似用户群研究的应用1.3 国内外相关研究1.3.1 相似用户的判断1.3.2 解决数据稀疏问题的研究1.4 本章小结第2章 个性化检索任务划分及评测2.1 个性化检索的任务划分2.1.1 用户新兴趣发现2.1.2 用户兴趣跟踪2.1.3 相似用户群建立2.1.4 个性化检索2.2 语料标注的辅助系统2.2.1 系统介绍2.2.2 正确答案记录2.2.3 语料规模2.3 相似用户群的评测2.3.1 评测机制2.3.2 评测方法2.4 本章小结第3章 用户兴趣发现与跟踪3.1 用户新兴趣发现3.1.1 基于向量空间模型的新兴趣发现方法3.1.2 基于TextTiling 的新兴趣发现方法3.1.3 实验结果及分析3.2 用户兴趣跟踪3.2.1 实验方法3.2.2 实验结果及分析3.3 本章小结第4章 基于相关性模型的数据扩充方法研究4.1 话题跟踪研究简介4.2 相关性模型4.3 基于向量空间模型的相关性模型4.4 基于话题核心与新颖部分的话题跟踪4.4.1 话题核心的构建4.4.2 利用改进相关性模型调整话题的新颖部分4.4.3 话题模型的构建4.5 实验及结果分析4.5.1 实验语料及评测机制4.5.2 实验结果4.6 本章小结第5章 基于相关性模型的相似用户群研究5.1 相关研究5.2 基于相关性模型的相似用户群建立5.2.1 用户数据扩充5.2.2 用户相似度计算5.3 实验及结果分析5.3.1 实验语料5.3.2 实验结果分析5.4 本章小结结论参考文献攻读学位期间发表的学术论文致谢
相关论文文献
标签:个性化检索论文; 协作过滤论文; 相似用户群论文; 相关性模型论文;