基于聚类的中文元搜索引擎技术研究

基于聚类的中文元搜索引擎技术研究

论文摘要

随着网络与通信技术的迅速发展,互联网上的信息资源数量急剧增加,搜索引擎作为网络信息检索的主要工具迅速产生并发展起来了。但是每个搜索引擎的设计,都有其特定的数据库索引范围、独特的功能和使用方法,以及预期的用户群。人们往往需要使用多种搜索引擎对搜索结果进行比较、筛选和相互印证。为了充分合理地利用已有的信息资源,建立在搜索引擎基础上的元搜索引擎目前已成为研究和开发的一个热点。现存的大多数元搜索引擎以线性列表的方式为用户返回结果,其规模仍然相当庞大,这使得用户可能用很多时间才能找到自己需要的结果,对检索结果进行聚类处理成为改进用户搜索体验的一个有效解决方案。本文首先对中文元搜索引擎相关的技术进行了研究,然后对后缀树聚类算法进行了探讨,并针对后缀树聚类算法的不足,提出适用于中文元搜索引擎的改进的后缀树聚类算法,本文将改进的后缀树聚类算法应用于中文元搜索引擎,开发出实现搜索结果聚类功能的中文元搜索引擎系统ISTCC系统。另外本文还设计了两个实验分别验证我们设计的改进的倒数排序法和改进的后缀树聚类算法的有效性。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 选题背景
  • 1.2 国内外研究情况
  • 1.3 本文主要工作及创新点
  • 1.4 本文组织结构
  • 第二章 元搜索引擎技术概述
  • 2.1 搜索引擎概述
  • 2.1.1 搜索引擎的概念
  • 2.1.3 搜索引擎的分类
  • 2.1.4 搜索引擎的组成及工作原理
  • 2.2 元搜索引擎概述
  • 2.2.1 元搜索引擎的组成
  • 2.2.2 元搜索引擎分类
  • 2.3 元搜索引擎相关技术
  • 2.3.1 成员搜索引擎调度策略
  • 2.3.2 元搜索引擎结果消重算法
  • 2.4 本章小结
  • 第三章 元搜索引擎关键技术研究
  • 3.1 Web 信息抽取
  • 3.1.1 抓取网页
  • 3.1.2 网页内容的解析
  • 3.2 元搜索引擎结果集成方法
  • 3.2.1 使用排名分数的合并
  • 3.2.2 使用排名位置的合并
  • 3.2.3 改进的倒数排序法
  • 3.3 本章小结
  • 第四章 后缀树聚类算法研究
  • 4.1 聚类分析研究介绍
  • 4.1.1 聚类概述
  • 4.1.2 文本表示模型
  • 4.1.3 聚类算法的分类
  • 4.2 后缀树聚类算法
  • 4.2.1 后缀树
  • 4.2.2 后缀树聚类算法
  • 4.3 改进的中文后缀树聚类算法
  • 4.3.1 文档解析
  • 4.3.2 创建扩展后缀树
  • 4.3.3 识别最大短语簇
  • 4.3.4 短语簇合并
  • 4.4 本章小结
  • 第五章 中文聚类元搜索引擎设计与实验分析
  • 5.1 开发平台与工具
  • 5.2 系统总体架构
  • 5.3 系统主要模块设计与实现
  • 5.3.1 搜索请求分析模块
  • 5.3.2 搜索任务分配模块
  • 5.3.3 搜索结果处理模块
  • 5.3.4 ISTCC 聚类模块
  • 5.4 系统运行效果
  • 5.4.1 系统查询页面
  • 5.4.2 系统结果页面
  • 5.5 实验分析
  • 5.5.1 实验一
  • 5.5.2 实验二
  • 5.6 本章小结
  • 第六章 总结与展望
  • 6.1 研究总结
  • 6.2 今后研究工作展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].西中文作品[J]. 中国书法 2011(09)
    • [2].《国际中文教育学报》征稿启事[J]. 世界汉语教学 2020(02)
    • [3].2019年国际中文教育大会闭幕[J]. 孔子学院 2020(01)
    • [4].基于文化产业振兴背景的高职院校中文教育研究[J]. 科学咨询(教育科研) 2020(04)
    • [5].印度的中文教育:综述与评估[J]. 南亚东南亚研究 2020(05)
    • [6].紡織月刊[J]. 纺织服装周刊 2018(21)
    • [7].紡織月刊[J]. 纺织服装周刊 2017(44)
    • [8].中文塑造了我的人生[J]. 孔子学院 2018(02)
    • [9].中文版音乐剧的价值和意义[J]. 上海艺术评论 2018(05)
    • [10].基于中英文可比较语料的中文零指代消解[J]. 北京大学学报(自然科学版) 2017(02)
    • [11].增强中文自信 助推中华文化复兴——周善甫的中文观述评[J]. 云南师范大学学报(对外汉语教学与研究版) 2017(02)
    • [12].在邕高校泰国留学生阅读中文书籍现状调查研究与分析[J]. 才智 2017(28)
    • [13].西中文作品欣赏[J]. 美与时代(中) 2014(12)
    • [14].论在外语院系中加强中文课教育的意义[J]. 戏剧之家 2015(10)
    • [15].全家都来学中文[J]. 廉政瞭望(上半月) 2015(10)
    • [16].《高校应用数学学报》第三十卷A辑(中文版)总目次[J]. 高校应用数学学报A辑 2015(04)
    • [17].“厦大中文百年”征稿启事[J]. 厦大中文学报 2020(00)
    • [18].香港中文大学宾馆[J]. 金山 2019(08)
    • [19].香港中文大學[J]. 英语画刊(高级版) 2019(25)
    • [20].中文、悟性和悟性享受[J]. 基础教育论坛 2013(20)
    • [21].中文教育之痛[J]. 教师博览 2010(04)
    • [22].该死的中文秘书台[J]. 教师博览 2011(02)
    • [23].探析文化产业振兴与高校中文教育改革[J]. 长江丛刊 2018(02)
    • [24].唐中文作品[J]. 文化月刊 2015(35)
    • [25].好惨的中文课[J]. 课外阅读 2016(05)
    • [26].一不留神,我要读中文系的博士了[J]. 大学生 2016(17)
    • [27].重建中文之美[J]. 百花洲 2016(01)
    • [28].学中文的骄傲[J]. 快乐作文 2015(Z3)
    • [29].孙中山(银奖)[J]. 上海集邮 2015(S1)
    • [30].我和中文做朋友[J]. 快乐作文 2014(Z5)

    标签:;  ;  ;  ;  

    基于聚类的中文元搜索引擎技术研究
    下载Doc文档

    猜你喜欢