论文摘要
计算机和网络技术的进展使信息的发布与共享不再受到时空限制,同时也给我们带来了“信息过载”的问题,即信息资源极大丰富,而真正有用的信息和知识却相对匮乏。作为一个全球化信息空间,Web为信息检索提供了一个前所未有的实验环境和应用情景,同时也给信息检索带来了新的挑战。搜索引擎等Web信息检索系统虽然部分地满足了人们的需要,但在精度、易用性等方面仍存在诸多问题,其效果远不能使人满意。据此,本文对“聚类Web信息检索”,尤其是聚类搜索上的文档及关键词索引的建立、文档的候选主题抽取、类别主题的归类及排序、主题的最终显示形式等课题进行研究和探索。速度是聚类检索系统需要考虑的首要因素,因此,传统的一些文档聚类方法都不太适合了。本文采用的是基于主题词的聚类方法,首先在文档预处理时进行文档主题词的抽取,为每篇文档确立几个候选主题,等到进行检索操作时,便根据检索到的文档的候选主题,将文档归入到对应的主题中形成候选类别,最后通过合并这些候选类别得到最终类别。本文重点研究了文档的候选主题的提取算法,结合统计及语义等信息,综合考虑了词语的词性、长度、位置、频度、词汇链权重等因素,并将这些因素作为支持向量机的特征,利用非线性回归方法训练模型,最后用训练出来的模型进行候选主题的抽取。同时,文中利用若干中文关键词短语的词性构成规则,对文档进行了词组抽取,将所抽取的词组加入到候选主题中,从而丰富了文档主题的表现形式。最后,本文还探索了聚类操作后最终类别主题的显示形式,利用了《同义词词林》等资源,提出了对类别主题进行排序和分类相结合的方法,使主题显示更加合理,更加方便用户进行查找。在本文的各小节中穿插了一些实验来说明上述提到的各种方法的有效性。同时,本文也设计了一种合理的评测方法对聚类检索系统的最终效果进行了评测,并对实验结果进行了深入的分析。