基于语义扩展的垂直选择系统的研究与实现

基于语义扩展的垂直选择系统的研究与实现

论文摘要

随着网络的发展,Internet上的信息量不断地扩增,这其中每天更新的信息就有数以万计之多。要在这样的一个庞大的信息库中找到自己有用的信息需要一个高效的检索工具来完成,而网络资源本身已经从文本格式变得多元化了,面对多领域、多元化的信息数据,出现了领域搜索—垂直搜索。这时,问题也随之而来,如果用户知道自己要检索的信息属于哪个领域,可以直接在该领域内检索。但是如果用户不知道,那么就涉及到当查询出现时垂直归属问题。本文正是在这一问题上进行研究的。本文采用了本体语义扩展,来对用户查询实现查询串上的预处理,对初始查询经过本体语义扩展,扩展为以初始查询为中心的概念集合。对于扩展后的查询集合,设计并实现了利用查询日志建立倒排索引,通过倒排索引对扩展后的查询集合进行修剪。以将查询扩展带来的噪声影响降到最低。最后的垂直选择部分涉及到了两部分文档得分的计算,分别是初始查询的文档得分及扩展后查询的文档得分。初始查询文档的得分通过文档的反转频率及词频来计算得到;而后一部分的查询则利用了查询日志中与查询有关的文档点击频率及顺序,通过抽取这些信息,得到文档的反转频率及文档权重因子,并由此计算文档得分。最后将两部分得分的和值做为文档的综合得分,并将各文档得分的加权值作为领域得分。以此做为垂直选择的依据。实验表明加入本体语义扩展和日志倒排索引的系统,对于垂直选择的准确性有了很大的提高。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 研究目的和意义
  • 1.3 研究内容
  • 1.3.1 基于领域本体的查询扩展
  • 1.3.2 查询日志的建模
  • 1.3.3 垂直领域的预测
  • 1.4 论文的组织结构
  • 第2章 相关技术的研究
  • 2.1 本体论及其在信息检索中的应用
  • 2.1.1 本体论研究
  • 2.1.2 本体描述语言及方法
  • 2.1.3 本体在信息系统各领域的应用
  • 2.2 查询日志的应用
  • 2.3 垂直领域的选择
  • 2.4 本章小结
  • 第3章 垂直选择系统的设计
  • 3.1 基于语义扩展的垂直选择系统的体系结构
  • 3.2 领域本体库的设计
  • 3.2.1 本体构建语言及工具的选择
  • 3.2.2 领域本体库的设计
  • 3.3 日志的倒排索引建模
  • 3.3.1 查询倒排索引的设计
  • 3.3.2 倒排索引词表的存储结构
  • 3.4 相关性计算
  • 3.4.1 激励因子的设置
  • 3.4.2 文档点击频率及顺序的提取
  • 3.4.3 领域得分计算的设计
  • 3.4.4 垂直领域的预测
  • 3.5 本章小结
  • 第4章 系统实现
  • 4.1 领域本体的构建
  • 4.2 利用JENA接口实现语义推理
  • 4.3 语义扩展的实现
  • 4.4 日志倒排索引的建立
  • 4.4.1 日志文件查询的抽取
  • 4.4.2 日志建立倒排索引实现
  • 4.4.3 索引表的存储结构的实现
  • 4.5 垂直领域的预测
  • 4.5.1 查询短语相关性的计算
  • 4.5.2 领域文档得分的计算
  • 第5章 实验测试和结果分析
  • 5.1 实验环境及数据集
  • 5.2 衡量指标
  • 5.3 测试效果
  • 5.3.1 本体语义扩展对结果的影响
  • 5.3.2 查询日志对结果的影响
  • 5.4 文档权重的设置
  • 5.5 检索效率测试
  • 5.6 本章小结
  • 第6章 结论及展望
  • 6.1 论文总结
  • 6.2 对今后工作的展望
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基于语义扩展的垂直选择系统的研究与实现
    下载Doc文档

    猜你喜欢