Similarity Search Based on Textual Content

论文摘要

如今,使用搜索引擎是我们搜索和查找信息的基本方法。网页搜索已经成为了大量网站的主要工作之一。尽管网页搜索是检索信息的一种成功而有效的方式,但是不同应用需要各种不同检索信息的方法。理解网页搜索背后的目标,能够为未来网页搜索引擎的改进提供一种视觉角度。在搜索查询目标的相似对象时,出于支持用户决策的推荐信息以及减少乏味的翻阅的需求,我们的工作基于分析页面的内容来检索相似目标的信息。本文透视网页搜索的概念,以相似性搜索为重点。相似性搜索指的是搜索类似查询目标的对象。给出用户查询目标的前提下,系统搜索网页发现有关的相似对象,这意味着这些对象与查询目标具有公共的属性。如果某用户想搜集相似位置的信息,本文对一种新方法进行建模和分析,这种方法的挑战是从大量收集的信息结构不良的文件中决定目标特性。本文评价了这些适合于发现与原始查询相似结果的技术。我们提出的方法以词条提取为基础,通过在搜索结果中频繁出现的词条,将初始查询的目标与相似对象联系起来。这些提取的词条（最重要的K-词条）被认为是公共的特性,并且他们被用作由系统得出的最终结果所执行的随后查询。但是,不仅对词条的赋权将使我们获得相似目标的结果,而且我们需要核对根据最重要的K-词条查询出的结果,以删除与原始查询更相关的文档,因为我们是查找相似目标的结果,而不是最初查询的结果。性能评价证明了我们的方法符合用户的信息需求。这种方法通过检索相关的特性而得到好的准确度。分析同样显示,通过过滤掉文件中与初始查询相关的内容来提高关联度是很重要的。我们也发现,有以下因素影响方法的性能：查询的天性,选择作为原始查询性质的词条数量,它们在最终搜索结果的相关性上起到很大作用。

论文目录

DECLARATION

DEDICATION

ABSTRACT

摘要

TABLE OF CONTENTS

LIST OF FIGURES

LIST OF TABLES

CHAPTER 1:INTRODUCTION

1.1 INTRODUCTION

1.2 RESEARCH PROBLEM

1.3 RESEARCH QUESTIONS AND AIMS

1.4 RESEARCH METHODOLOGY

1.5 MOTIVATION AND CONTRIBUTION OF THE THESIS

1.6 THESIS OUTLINE

CHAPTER 2:BASIC CONCEPTS AND LITERATURE REVIEW

2.1 BASIC CONCEPTS AND DEFINITIONS

2.2 UNDERSTANDING HOW SEARCH ENGINES WORK

2.2.1 The spider

2.2.2 The indexer

2.2.3 The database

2.2.4 The search software

2.2.5 The Interface

2.2.6 Search engine example （case of Google）

2.3 UNDERSTANDING THE USERS OF SEARCH ENGINES

2.3.1 Users' needs

2.3.2 Users' behavior

2.4 ENHANCEMENT OF SEARCH ENGINES

2.5 SIMILARITY SEARCH BACKGROUND

CHAPTER 3:A NEW APPROACH FOR SIMILARITY SEARCH

3.1 PROBLEM OVERVIEW

3.2 THE PROPOSED APPROACH

3.2.1 The First Algorithm

3.2.2 The Second Algorithm

CHAPTER 4:EXPERIMENTAL RESULTS

4.1 EVALUATION ENVIRONMENT

4.2 SAMPLES OF EVALUATED DATA

4.2.1 Initial query results and selection of top-k terms

4.2.2 Final results from top-k terms

4.3 RELEVANCE OF SEARCH RESULTS

4.4 IMPORTANCE OF FILTERING K-TERMS QUERY SEARCH RESULTS

4.5 EFFECTIVENESS OF THE QUERIES

4.6 EFFECTIVENESS OF K VALUE

CONCLUSIONS

REFERENCES

ACKNOWLEDGEMENT

Similarity Search Based on Textual Content

论文摘要

论文目录

相关论文文献

猜你喜欢