论文摘要
如今,使用搜索引擎是我们搜索和查找信息的基本方法。网页搜索已经成为了大量网站的主要工作之一。尽管网页搜索是检索信息的一种成功而有效的方式,但是不同应用需要各种不同检索信息的方法。理解网页搜索背后的目标,能够为未来网页搜索引擎的改进提供一种视觉角度。在搜索查询目标的相似对象时,出于支持用户决策的推荐信息以及减少乏味的翻阅的需求,我们的工作基于分析页面的内容来检索相似目标的信息。本文透视网页搜索的概念,以相似性搜索为重点。相似性搜索指的是搜索类似查询目标的对象。给出用户查询目标的前提下,系统搜索网页发现有关的相似对象,这意味着这些对象与查询目标具有公共的属性。如果某用户想搜集相似位置的信息,本文对一种新方法进行建模和分析,这种方法的挑战是从大量收集的信息结构不良的文件中决定目标特性。本文评价了这些适合于发现与原始查询相似结果的技术。我们提出的方法以词条提取为基础,通过在搜索结果中频繁出现的词条,将初始查询的目标与相似对象联系起来。这些提取的词条(最重要的K-词条)被认为是公共的特性,并且他们被用作由系统得出的最终结果所执行的随后查询。但是,不仅对词条的赋权将使我们获得相似目标的结果,而且我们需要核对根据最重要的K-词条查询出的结果,以删除与原始查询更相关的文档,因为我们是查找相似目标的结果,而不是最初查询的结果。性能评价证明了我们的方法符合用户的信息需求。这种方法通过检索相关的特性而得到好的准确度。分析同样显示,通过过滤掉文件中与初始查询相关的内容来提高关联度是很重要的。我们也发现,有以下因素影响方法的性能:查询的天性,选择作为原始查询性质的词条数量,它们在最终搜索结果的相关性上起到很大作用。
论文目录
DECLARATIONDEDICATIONABSTRACT摘要TABLE OF CONTENTSLIST OF FIGURESLIST OF TABLESCHAPTER 1:INTRODUCTION1.1 INTRODUCTION1.2 RESEARCH PROBLEM1.3 RESEARCH QUESTIONS AND AIMS1.4 RESEARCH METHODOLOGY1.5 MOTIVATION AND CONTRIBUTION OF THE THESIS1.6 THESIS OUTLINECHAPTER 2:BASIC CONCEPTS AND LITERATURE REVIEW2.1 BASIC CONCEPTS AND DEFINITIONS2.2 UNDERSTANDING HOW SEARCH ENGINES WORK2.2.1 The spider2.2.2 The indexer2.2.3 The database2.2.4 The search software2.2.5 The Interface2.2.6 Search engine example (case of Google)2.3 UNDERSTANDING THE USERS OF SEARCH ENGINES2.3.1 Users' needs2.3.2 Users' behavior2.4 ENHANCEMENT OF SEARCH ENGINES2.5 SIMILARITY SEARCH BACKGROUNDCHAPTER 3:A NEW APPROACH FOR SIMILARITY SEARCH3.1 PROBLEM OVERVIEW3.2 THE PROPOSED APPROACH3.2.1 The First Algorithm3.2.2 The Second AlgorithmCHAPTER 4:EXPERIMENTAL RESULTS4.1 EVALUATION ENVIRONMENT4.2 SAMPLES OF EVALUATED DATA4.2.1 Initial query results and selection of top-k terms4.2.2 Final results from top-k terms4.3 RELEVANCE OF SEARCH RESULTS4.4 IMPORTANCE OF FILTERING K-TERMS QUERY SEARCH RESULTS4.5 EFFECTIVENESS OF THE QUERIES4.6 EFFECTIVENESS OF K VALUECONCLUSIONSREFERENCESACKNOWLEDGEMENT
相关论文文献
标签:信息搜索和检索论文; 网页搜索论文; 相似性搜索论文; 文本内容论文;
Similarity Search Based on Textual Content
下载Doc文档