基于主题的聚类检索技术研究

基于主题的聚类检索技术研究

论文摘要

计算机和网络技术的进展使信息的发布与共享不再受到时空限制,同时也给我们带来了“信息过载”的问题,即信息资源极大丰富,而真正有用的信息和知识却相对匮乏。作为一个全球化信息空间,Web为信息检索提供了一个前所未有的实验环境和应用情景,同时也给信息检索带来了新的挑战。搜索引擎等Web信息检索系统虽然部分地满足了人们的需要,但在精度、易用性等方面仍存在诸多问题,其效果远不能使人满意。据此,本文对“聚类Web信息检索”,尤其是聚类搜索上的文档及关键词索引的建立、文档的候选主题抽取、类别主题的归类及排序、主题的最终显示形式等课题进行研究和探索。速度是聚类检索系统需要考虑的首要因素,因此,传统的一些文档聚类方法都不太适合了。本文采用的是基于主题词的聚类方法,首先在文档预处理时进行文档主题词的抽取,为每篇文档确立几个候选主题,等到进行检索操作时,便根据检索到的文档的候选主题,将文档归入到对应的主题中形成候选类别,最后通过合并这些候选类别得到最终类别。本文重点研究了文档的候选主题的提取算法,结合统计及语义等信息,综合考虑了词语的词性、长度、位置、频度、词汇链权重等因素,并将这些因素作为支持向量机的特征,利用非线性回归方法训练模型,最后用训练出来的模型进行候选主题的抽取。同时,文中利用若干中文关键词短语的词性构成规则,对文档进行了词组抽取,将所抽取的词组加入到候选主题中,从而丰富了文档主题的表现形式。最后,本文还探索了聚类操作后最终类别主题的显示形式,利用了《同义词词林》等资源,提出了对类别主题进行排序和分类相结合的方法,使主题显示更加合理,更加方便用户进行查找。在本文的各小节中穿插了一些实验来说明上述提到的各种方法的有效性。同时,本文也设计了一种合理的评测方法对聚类检索系统的最终效果进行了评测,并对实验结果进行了深入的分析。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题的目的和意义
  • 1.2 国内外研究现状
  • 1.3 本课题的来源及主要研究内容
  • 第2章 聚类检索系统的结构及其索引的建立
  • 2.1 概述
  • 2.2 聚类检索系统的结构
  • 2.3 索引模型介绍
  • 2.3.1 倒排索引(Inverted Files)
  • 2.3.2 署名文件(Signature Files)
  • 2.3.3 位图(BitMap)
  • 2.3.4 Pat树和Pat数组
  • 2.4 倒排索引的建立
  • 2.4.1 索引建立
  • 2.4.2 实验与结果分析
  • 2.5 本章小结
  • 第3章 候选主题的抽取与归并方法
  • 3.1 概述
  • 3.2 候选主题的抽取方法
  • 3.2.1 《知网》介绍
  • 3.2.2 词语权重的计算
  • 3.2.3 词语的排序方法
  • 3.2.4 实验与结果分析
  • 3.3 候选主题的归并方法
  • 3.3.1 基于词性规则的关键短语抽取方法
  • 3.3.2 实验与结果分析
  • 3.4 本章小结
  • 第4章 类别主题的分类及排序
  • 4.1 引言
  • 4.2 主题的分类
  • 4.2.1 《同义词词林》介绍
  • 4.2.2 主题分类方法的研究
  • 4.3 主题的排序及简单归并
  • 4.4 本章小结
  • 第5章 系统测试
  • 5.1 实验目的
  • 5.2 评测方法
  • 5.3 实验与结果分析
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于主题的聚类检索技术研究
    下载Doc文档

    猜你喜欢