论文摘要
搜索引擎(Search engine)是指自动从Internet上搜集信息,经过一定整理以后,提供给用户进行查询的系统。它的出现给用户带来了极大的便利。但随着Internet的进一步发展,传统的搜索引擎暴露出不足之处:用户搜索出来的结果页面过多而用户真正关心的内容少,用户需要耗费极大时间寻找自己所关心的内容。基于上述问题,本文对搜索引擎及其相关技术展开研究。本文结合web文本挖掘、元搜索及其他相关技术,提出了一种基于web文本聚类的元搜索系统。系统分为两大功能模块:元搜索模块和文本聚类模块。本系统中,在用户输入关键字进行检索后,系统中的元搜索模块将调用其他全文搜索引擎进行搜索,并按照一定评分原则,去除那些与用户无关的搜索结果,并把处理后的最终结果交给文本聚类模块进行处理。在文本聚类模块中,我们首先对搜索到的web页面进行预处理,然后运用文本聚类算法对页面进行分类,生成不同的聚簇为用户的搜索提出指导性帮助。在本系统中文本聚类算法是核心。我们发现K-means算法运行速度快,时间复杂度低,而且适合在大型数据集上运行。但我们也发现,在K-means算法中不同的初始点会产生不同聚类效果。因此我们结合权威web页面的特性,选择权威web页面作为初始点进行聚类,并且很好地达到了聚类效果。
论文目录
相关论文文献
- [1].机器学习方法在文本聚类中的应用[J]. 电子世界 2018(22)
- [2].基于特征空间的文本聚类[J]. 计算机技术与发展 2017(09)
- [3].基于深度特征语义学习模型的垃圾短信文本聚类研究[J]. 现代计算机(专业版) 2018(07)
- [4].基于语义相似度的文本聚类研究[J]. 现代图书情报技术 2016(12)
- [5].基于社交网络中非平衡文本聚类方法的研究[J]. 科技创新导报 2016(13)
- [6].结合语义与统计的特征降维短文本聚类[J]. 计算机工程 2012(22)
- [7].文本聚类研究[J]. 电脑知识与技术 2009(20)
- [8].一种结合主题模型与段落向量的短文本聚类方法[J]. 华东理工大学学报(自然科学版) 2020(03)
- [9].基于文本聚类与情感分析的群租房微博舆情量化研究[J]. 图书情报研究 2019(01)
- [10].一种基于t-分布随机近邻嵌入的文本聚类方法[J]. 南京大学学报(自然科学) 2019(02)
- [11].多特征融合文本聚类的新闻话题发现模型[J]. 国防科技大学学报 2017(03)
- [12].基于频繁项集的海量短文本聚类与主题抽取[J]. 计算机研究与发展 2015(09)
- [13].面向路线图编制的模糊均值文本聚类挖掘方法研究[J]. 河北工业大学学报 2011(03)
- [14].基于文本聚类的煤矿安全隐患类型挖掘研究[J]. 中国安全科学学报 2019(03)
- [15].基于竞争学习的大规模微博文本聚类[J]. 江苏科技大学学报(自然科学版) 2017(06)
- [16].基于特征翻译和潜在语义标引的跨语言文本聚类实验分析[J]. 现代图书情报技术 2014(01)
- [17].一种改进的文本聚类方法[J]. 自动化技术与应用 2008(09)
- [18].动态索引树文本聚类方法中节点阀值的优化[J]. 电脑开发与应用 2010(09)
- [19].基于卫星装配工艺的短文本聚类研究[J]. 软件工程 2020(04)
- [20].可增量的用户短文本聚类方法研究[J]. 计算机技术与发展 2017(11)
- [21].基于信息损失度的文本聚类研究[J]. 内蒙古师范大学学报(自然科学汉文版) 2017(05)
- [22].基于余弦距离选取初始簇中心的文本聚类研究[J]. 计算机工程与应用 2018(10)
- [23].具有词判别力学习能力的短文本聚类概率模型研究[J]. 计算机应用研究 2018(12)
- [24].面向在线社交网络用户生成内容的饮食话题发现研究[J]. 现代图书情报技术 2016(10)
- [25].基于信息融合的网页文本聚类距离选择方法[J]. 广州大学学报(自然科学版) 2016(01)
- [26].深度词汇网络学习的文本聚类研究[J]. 北京化工大学学报(自然科学版) 2015(02)
- [27].一种基于本体的文本聚类方法[J]. 吉林大学学报(理学版) 2010(02)
- [28].有标记的文本聚类方法研究[J]. 舰船电子工程 2009(04)
- [29].基于关键词的学术文本聚类集成研究[J]. 情报学报 2019(08)
- [30].敏感话题发现中的增量型文本聚类模型[J]. 信息网络安全 2015(09)