专业搜索引擎的研究与设计

专业搜索引擎的研究与设计

论文题目: 专业搜索引擎的研究与设计

论文类型: 硕士论文

论文专业: 计算机应用与技术

作者: 寿周翔

导师: 姚敏

关键词: 本体论,数据挖掘,搜索引擎,专业搜索引擎,网络蜘蛛,中文分词

文献来源: 浙江大学

发表年度: 2005

论文摘要: Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。搜索引擎的出现可以帮助用户在网络上方便地查找到自己需要的信息。但是目前的搜素引擎由于存在网页覆盖率低、索引不及时和返回结果不精确等缺点,因而难以满足专业用户(如某一领域的科技工作人员)对信息的需求。 本文主要的研究工作是针对搜索引擎的一个发展方向——专业搜索引擎,进行理论研究分析和具体设计。在专业搜索引擎的信息采集方面,为获取最优搜索路径,本文采用非贪婪的IpageRank策略指引网络蜘蛛动态调整下载方向,优先下载可能包含有相关主题内容的页面,有效的实现搜索引擎的专用化。在信息检索的相关性方面,本文采取的方法是基于网页内容和结构的向量空间模型算法。针对用户搜索关健字的模糊性及搜索返回结果的不精确性问题,本文应用本体论通过概念来执行搜索,同时通过使用链接文档及相关的概念来进行过滤及排序。 本文设计的系统还在线提供二种数据挖掘技术,关联规则和聚类,让使用者方便地探索并且浏览搜索出来的文件。 本文的主要工作如下: 1.分析了搜索引擎国内外目前的研究现状及发展趋势,探讨了专业搜索引擎目前主要存在的问题及现行专业搜索引擎所采用的搜索策略主要存在的缺陷。 2.针对中文分词中歧义字段的切分问题,着重研究了交集型歧义字段的切分,并提出相应的分类解决方法。 3.针对专业搜索引擎网络蜘蛛搜索路径的选择策略问题,提出了非贪婪的IpageRank搜索策略,并采用改进的VSM向量模型法对网页进行进一步的相关性过滤。 4.针对用户搜索关健字的模糊性及搜索返回结果的不精确性问题,我们提出基于本体论的排序算法,利用搜索词的本体语义来确定及排序相关的Web文档,以此来改进在文本检索中出现的同义,岐义及上下文敏感等问题。

论文目录:

目录

摘要

ABSTRACT

引言

第一章 专业搜索引擎研究的背景及意义

1.1 搜索引擎的发展史

1.2 搜索引擎的发展趋势

1.3 专业搜索引擎概况

1.3.1 专业搜索引擎产生的背景

1.3.2 专业搜索引擎目前的研究状况

1.4 本论文的主要内容

第二章 背景知识及相关方法

2.1 数据挖掘

2.1.1 关联规则挖掘

2.1.2 分类

2.1.3 聚类

2.2 本体论简介

2.3 主题页面在Web上的分布特征

第三章 专业搜索引擎

3.1 通用搜索引擎

3.1.1 通用搜索引擎的分类

3.1.2 通用搜索引擎的工作原理

3.2 专业搜索引擎简介

3.3 专业搜索引擎系统总体结构

3.4 本体论的设计

3.5 语言处理器模块

3.6 数据挖掘器

3.6.1 关键字关联

3.6.2 文档聚类

3.7 数据库模块

第四章 页面解析和中文分词

4.1 页面解析的任务、过程

4.2 中文分词简介

4.3 交集型切分歧义的分类

4.3.1 交集字段和最大交集字段

4.3.2 最大交集字段按宏结构分类

4.4 歧义处理方法

4.4.1 最大交集字段的提取

4.4.2 切分原则

4.4.3 几种主要类型的切分规则

第五章 专业搜索引擎网络蜘蛛的设计

5.1 专业搜索引擎网络蜘蛛系统模型

5.2 网络蜘蛛搜索策略

5.2.1 网络蜘蛛搜索策略概述

5.2.2 非贪婪搜索策略

5.2.3 IPageRank算法

5.3 页面与主题的相关性判定

5.3.1 标准搜索主题特征向量的提取

5.3.2 改进的VSM方法

5.3.3 特征项加权模型

5.3.4 页面与主题的相关性判定

第六章 排序算法

6.1 搜索过程

6.2 我们的排序算法

6.2.1 链接扩展

6.2.2排序算法

6.2.3 排序结果分析

第七章 回顾与展望

参考文献:

致谢

发布时间: 2005-04-04

参考文献

  • [1].基于本体论的语义检索研究[D]. 张志浩.西安电子科技大学2007
  • [2].Using K-Mean and SVM to Build Hybrid Methodology to Classify Diseases[D]. AL-MUREISH NEZAR MOHAMMED GALIB.湖南大学2017
  • [3].基于数据挖掘的微博舆情监测与分析平台的设计与实现[D]. 陈巍.厦门大学2017
  • [4].竹材材性数据挖掘方法研究[D]. 岳想想.安徽农业大学2018
  • [5].数据挖掘分类算法的改进研究[D]. 陈洁.南京邮电大学2018
  • [6].数据挖掘技术在职工基本医疗保险审计中的应用研究[D]. 眭璐.南京邮电大学2017
  • [7].基于数据挖掘的广告推荐系统的研究[D]. 蒋丽.南京航空航天大学2018
  • [8].数据挖掘在电网安全生产监督管理中的应用研究[D]. 卢颖浩.华北电力大学2018
  • [9].基于数据挖掘的风电机组健康状态监测研究[D]. 靳昊凡.华北电力大学2018
  • [10].基于数据挖掘的居民购电行为研究[D]. 周方泽.北京交通大学2018

相关论文

  • [1].垂直搜索引擎中网络蜘蛛的设计与实现[D]. 薛建春.中国地质大学(北京)2007
  • [2].垂直搜索引擎若干关键技术的研究[D]. 王晓伟.浙江大学2007
  • [3].基于专业搜索引擎网络蜘蛛搜索策略研究[D]. 冯月.电子科技大学2007
  • [4].专业搜索引擎的数据存储研究[D]. 陈小峰.南京师范大学2007
  • [5].专业搜索引擎的排序算法研究[D]. 徐金雷.南京师范大学2007
  • [6].个性化垂直搜索引擎研究[D]. 李文泽.河南大学2007
  • [7].搜索引擎中的数据存储问题研究[D]. 何华.浙江大学2005
  • [8].主题搜索引擎中网络蜘蛛搜索策略研究[D]. 陈杰.浙江大学2006
  • [9].主题型搜索引擎的研究与实现[D]. 侯震宇.中国科学院研究生院(文献情报中心)2003
  • [10].搜索引擎及其相关性排序研究[D]. 王亮.武汉大学2004

标签:;  ;  ;  ;  ;  ;  

专业搜索引擎的研究与设计
下载Doc文档

猜你喜欢