论文摘要
随着Internet技术的突飞猛进,Web信息量爆炸性增长,人们越来越习惯使用搜索引擎查找所关心的信息了。但浩瀚的信息资源却给搜索引擎的发展提出了新的挑战。如何有效、快捷、准确地将查询结果返回给用户,提高Web信息检索效果,已变成一项迫切而有意义的研究课题和热点。本文主要是围绕HTML和XML两种文档的结构特征和主题内容两方面的因素考虑,对当前的Web信息检索技术进行研究,包括技术较为成熟的HTML文档检索与刚刚起步的XML文档检索。首先,本文对Web信息检索进行了概述,并简单介绍了搜索引擎的工作原理、检索模型、研究热点、组成结构、分类及评价标准。在HTML文档检索研究中,由于当前检索方法的精度不高,本文利用网页间链接关系和锚文本,综合考虑文档结构和内容,对现有网页排序算法进行合理改进。实验结果表明,该算法可以在一定程度上提高文档检索的准确率和召回率。其次,检索结果以列表形式返回给用户,给用户的浏览造成很大困难。为了方便用户浏览和节省查阅时间,本文使用一种基于链接扩展的方法实现检索结果的自动分类,使其以类别目录方式加以显示。实验结果表明,该方法可在一定程度上提高网页自动分类精度,并在SEWM2007中文网页分类中获得较好结果。此外,本文还在传统HTML检索理论的基础上,对XML文档检索进行研究,根据XML文档结构特征,提出了一种基于融合策略和主题分类的XML检索再次排序的改进方法。实验结果证明,该方法能够提高检索系统的综合评价指标,并在INEX2007任务评测中获得较好结果。Web信息检索不仅具有较高的研究价值,也有广阔的应用前景。本文针对当前Web信息检索技术做了进一步的研究与探讨,并解决了一些现存的问题,但后期还需要完善与深入研究。
论文目录
摘要Abstract1 绪论1.1 研究背景1.2 研究现状1.3 课题的研究内容来源1.4 本文组织结构2 搜索引擎概述2.1 搜索引擎工作原理2.2 经典检索模型2.2.1 布尔模型2.2.2 向量空间模型2.2.3 概率模型2.3 搜索引擎研究热点2.4 搜索引擎分类2.4.1 目录式搜索引擎2.4.2 机器搜索引擎2.4.3 元搜索引擎2.5 搜索引擎评价指标3 信息检索链接分析算法研究3.1 研究意义3.2 基于结构的链接分析经典技术3.2.1 PageRank3.2.2 HITS3.2.3 PageRank与HITS算法比较3.3 锚文本3.4 基于PageRank和锚文本的排序算法研究3.4.1 算法思想3.4.2 实验过程及评价指标3.4.3 实验结果与分析3.5 本章小结4 搜索结果表现技术4.1 搜索结果分类意义4.2 实现中文网页分类一般过程4.3 中文网页分类算法研究4.3.1 基于结构的网页分类研究动态4.3.2 基于链接扩展的中文网页分类算法改进4.3.3 实验过程及结果分析4.4 本章小结5 XML检索技术研究5.1 研究意义5.1.1 HTML不足5.1.2 XML优势5.2 XML检索研究现状5.2.1 研究动态5.2.2 研究主要内容5.2.3 INEX介绍5.3 XML及其相关技术5.3.1 XML产生及包含元素5.3.2 XML数据存储5.3.3 XML文档解析技术5.4 基于结构和查询主题的XML检索研究5.4.1 基于融合策略的排序思想5.4.2 查询主题分类在排序中的应用5.5 实验介绍5.5.1 实验过程及评价指标5.5.2 实验结果与分析5.6 本章小结结论参考文献攻读硕士学位期间发表学术论文情况致谢
相关论文文献
标签:搜索引擎论文; 链接分析论文; 锚文本论文; 网页分类论文; 检索论文;