权威Web信息在搜索优化中的应用研究

权威Web信息在搜索优化中的应用研究

论文摘要

搜索引擎(Search engine)是指自动从Internet上搜集信息,经过一定整理以后,提供给用户进行查询的系统。它的出现给用户带来了极大的便利。但随着Internet的进一步发展,传统的搜索引擎暴露出不足之处:用户搜索出来的结果页面过多而用户真正关心的内容少,用户需要耗费极大时间寻找自己所关心的内容。基于上述问题,本文对搜索引擎及其相关技术展开研究。本文结合web文本挖掘、元搜索及其他相关技术,提出了一种基于web文本聚类的元搜索系统。系统分为两大功能模块:元搜索模块和文本聚类模块。本系统中,在用户输入关键字进行检索后,系统中的元搜索模块将调用其他全文搜索引擎进行搜索,并按照一定评分原则,去除那些与用户无关的搜索结果,并把处理后的最终结果交给文本聚类模块进行处理。在文本聚类模块中,我们首先对搜索到的web页面进行预处理,然后运用文本聚类算法对页面进行分类,生成不同的聚簇为用户的搜索提出指导性帮助。在本系统中文本聚类算法是核心。我们发现K-means算法运行速度快,时间复杂度低,而且适合在大型数据集上运行。但我们也发现,在K-means算法中不同的初始点会产生不同聚类效果。因此我们结合权威web页面的特性,选择权威web页面作为初始点进行聚类,并且很好地达到了聚类效果。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 本文研究背景
  • 1.2 国内外研究现状
  • 1.3 研究意义
  • 1.4 本文所作的工作
  • 第2章 搜索引擎及其相关技术介绍
  • 2.1 搜索引擎概述
  • 2.1.1 搜索引擎的工作原理
  • 2.1.2 搜索引擎分类
  • 2.1.3 搜索引擎发展历史
  • 2.2 元搜索概述
  • 2.3 权威web页面定义及特性
  • 2.4 本章小结
  • 第3章 web文本聚类相关技术
  • 3.1 web文本特点
  • 3.1.1 超文本的结构性特点
  • 3.1.2 超文本的组成
  • 3.2 文本表示
  • 3.2.1 布尔逻辑模型
  • 3.2.2 向量模型空间
  • 3.2.3 概率模型空间
  • 3.2.4 各模型之间比较
  • 3.3 权重计算方法
  • 3.4 分词
  • 3.4.1 基于词库的分词方法
  • 3.4.2 基于统计的分词方法
  • 3.4.3 基于理解的切分方法
  • 3.5 特征提取方法
  • 3.5.1 特征频度
  • 3.5.2 文本频度
  • 3.5.3 特征熵
  • 3.5.4 信息增益
  • 2统计法'>3.5.5 x2统计法
  • 3.5.6 互信息量
  • 3.5.7 词条CHI统计法
  • 3.5.8 各特征方法之间比较
  • 3.6 本章小节
  • 第4章 web文本聚类算法的研究
  • 4.1 聚类概述
  • 4.2 聚类算法的要求
  • 4.2.1 可伸缩性
  • 4.2.2 处理不同类型属性的能力
  • 4.2.3 能发现任意形状的聚类
  • 4.2.4 使决定输入参数的领域知识最小化
  • 4.2.5 能够有效地处理噪声数据
  • 4.2.6 对于输入纪录的顺序不敏感
  • 4.2.7 高维性
  • 4.2.8 基于约束的聚类
  • 4.2.9 可解释性和可用性
  • 4.3 主要的聚类方法
  • 4.3.1 划分方法
  • 4.3.2 层次方法
  • 4.3.3 基于密度的方法
  • 4.3.4 基于模型的方法
  • 4.3.5 基于网格的方法
  • 4.4 常用的聚类分析方法
  • 4.4.1 K-means算法概述
  • 4.4.2 层次聚类算法
  • 4.4.3 动态聚类算法
  • 4.4.4 各算法之间比较
  • 4.5 本章小结
  • 第5章 基于web文本聚类的元搜索引擎的设计与实现
  • 5.1 基于文本聚类的中文元搜索引擎的系统结构
  • 5.2 基于文本聚类的中文元搜索引擎的设计
  • 5.2.1 元搜索模块的设计
  • 5.2.2 网页分析模块的设计
  • 5.3 原型系统的实现与评测
  • 5.3.1 系统平台与开发工具
  • 5.3.2 系统评测
  • 5.4 本章小结
  • 第6章 结论与未来发展
  • 6.1 创新点
  • 6.2 有待解决的问题及未来工作
  • 致谢
  • 参考文献
  • 攻读学位期间的研究成果
  • 相关论文文献

    • [1].机器学习方法在文本聚类中的应用[J]. 电子世界 2018(22)
    • [2].基于特征空间的文本聚类[J]. 计算机技术与发展 2017(09)
    • [3].基于深度特征语义学习模型的垃圾短信文本聚类研究[J]. 现代计算机(专业版) 2018(07)
    • [4].基于语义相似度的文本聚类研究[J]. 现代图书情报技术 2016(12)
    • [5].基于社交网络中非平衡文本聚类方法的研究[J]. 科技创新导报 2016(13)
    • [6].结合语义与统计的特征降维短文本聚类[J]. 计算机工程 2012(22)
    • [7].文本聚类研究[J]. 电脑知识与技术 2009(20)
    • [8].一种结合主题模型与段落向量的短文本聚类方法[J]. 华东理工大学学报(自然科学版) 2020(03)
    • [9].基于文本聚类与情感分析的群租房微博舆情量化研究[J]. 图书情报研究 2019(01)
    • [10].一种基于t-分布随机近邻嵌入的文本聚类方法[J]. 南京大学学报(自然科学) 2019(02)
    • [11].多特征融合文本聚类的新闻话题发现模型[J]. 国防科技大学学报 2017(03)
    • [12].基于频繁项集的海量短文本聚类与主题抽取[J]. 计算机研究与发展 2015(09)
    • [13].面向路线图编制的模糊均值文本聚类挖掘方法研究[J]. 河北工业大学学报 2011(03)
    • [14].基于文本聚类的煤矿安全隐患类型挖掘研究[J]. 中国安全科学学报 2019(03)
    • [15].基于竞争学习的大规模微博文本聚类[J]. 江苏科技大学学报(自然科学版) 2017(06)
    • [16].基于特征翻译和潜在语义标引的跨语言文本聚类实验分析[J]. 现代图书情报技术 2014(01)
    • [17].一种改进的文本聚类方法[J]. 自动化技术与应用 2008(09)
    • [18].动态索引树文本聚类方法中节点阀值的优化[J]. 电脑开发与应用 2010(09)
    • [19].基于卫星装配工艺的短文本聚类研究[J]. 软件工程 2020(04)
    • [20].可增量的用户短文本聚类方法研究[J]. 计算机技术与发展 2017(11)
    • [21].基于信息损失度的文本聚类研究[J]. 内蒙古师范大学学报(自然科学汉文版) 2017(05)
    • [22].基于余弦距离选取初始簇中心的文本聚类研究[J]. 计算机工程与应用 2018(10)
    • [23].具有词判别力学习能力的短文本聚类概率模型研究[J]. 计算机应用研究 2018(12)
    • [24].面向在线社交网络用户生成内容的饮食话题发现研究[J]. 现代图书情报技术 2016(10)
    • [25].基于信息融合的网页文本聚类距离选择方法[J]. 广州大学学报(自然科学版) 2016(01)
    • [26].深度词汇网络学习的文本聚类研究[J]. 北京化工大学学报(自然科学版) 2015(02)
    • [27].一种基于本体的文本聚类方法[J]. 吉林大学学报(理学版) 2010(02)
    • [28].有标记的文本聚类方法研究[J]. 舰船电子工程 2009(04)
    • [29].基于关键词的学术文本聚类集成研究[J]. 情报学报 2019(08)
    • [30].敏感话题发现中的增量型文本聚类模型[J]. 信息网络安全 2015(09)

    标签:;  ;  ;  

    权威Web信息在搜索优化中的应用研究
    下载Doc文档

    猜你喜欢