论文摘要
随着网络的发展,Internet上的信息量不断地扩增,这其中每天更新的信息就有数以万计之多。要在这样的一个庞大的信息库中找到自己有用的信息需要一个高效的检索工具来完成,而网络资源本身已经从文本格式变得多元化了,面对多领域、多元化的信息数据,出现了领域搜索—垂直搜索。这时,问题也随之而来,如果用户知道自己要检索的信息属于哪个领域,可以直接在该领域内检索。但是如果用户不知道,那么就涉及到当查询出现时垂直归属问题。本文正是在这一问题上进行研究的。本文采用了本体语义扩展,来对用户查询实现查询串上的预处理,对初始查询经过本体语义扩展,扩展为以初始查询为中心的概念集合。对于扩展后的查询集合,设计并实现了利用查询日志建立倒排索引,通过倒排索引对扩展后的查询集合进行修剪。以将查询扩展带来的噪声影响降到最低。最后的垂直选择部分涉及到了两部分文档得分的计算,分别是初始查询的文档得分及扩展后查询的文档得分。初始查询文档的得分通过文档的反转频率及词频来计算得到;而后一部分的查询则利用了查询日志中与查询有关的文档点击频率及顺序,通过抽取这些信息,得到文档的反转频率及文档权重因子,并由此计算文档得分。最后将两部分得分的和值做为文档的综合得分,并将各文档得分的加权值作为领域得分。以此做为垂直选择的依据。实验表明加入本体语义扩展和日志倒排索引的系统,对于垂直选择的准确性有了很大的提高。
论文目录
摘要Abstract第1章 绪论1.1 研究背景1.2 研究目的和意义1.3 研究内容1.3.1 基于领域本体的查询扩展1.3.2 查询日志的建模1.3.3 垂直领域的预测1.4 论文的组织结构第2章 相关技术的研究2.1 本体论及其在信息检索中的应用2.1.1 本体论研究2.1.2 本体描述语言及方法2.1.3 本体在信息系统各领域的应用2.2 查询日志的应用2.3 垂直领域的选择2.4 本章小结第3章 垂直选择系统的设计3.1 基于语义扩展的垂直选择系统的体系结构3.2 领域本体库的设计3.2.1 本体构建语言及工具的选择3.2.2 领域本体库的设计3.3 日志的倒排索引建模3.3.1 查询倒排索引的设计3.3.2 倒排索引词表的存储结构3.4 相关性计算3.4.1 激励因子的设置3.4.2 文档点击频率及顺序的提取3.4.3 领域得分计算的设计3.4.4 垂直领域的预测3.5 本章小结第4章 系统实现4.1 领域本体的构建4.2 利用JENA接口实现语义推理4.3 语义扩展的实现4.4 日志倒排索引的建立4.4.1 日志文件查询的抽取4.4.2 日志建立倒排索引实现4.4.3 索引表的存储结构的实现4.5 垂直领域的预测4.5.1 查询短语相关性的计算4.5.2 领域文档得分的计算第5章 实验测试和结果分析5.1 实验环境及数据集5.2 衡量指标5.3 测试效果5.3.1 本体语义扩展对结果的影响5.3.2 查询日志对结果的影响5.4 文档权重的设置5.5 检索效率测试5.6 本章小结第6章 结论及展望6.1 论文总结6.2 对今后工作的展望参考文献致谢
相关论文文献
标签:语义扩展论文; 垂直选择论文; 日志建模论文;