论文摘要
Web站点的日志数据记录了浏览用户对此Web站点访问时的大量信息,对这些信息的分析有利于网站设计人员掌握用户的爱好和习惯,网站设计人员可以据此对网站的结构进行优化和页面重组。聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。目前,传统的聚类算法大体上分为划分的方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。本文首先对Web挖掘技术分类进行介绍,然后重点对本论文用到的算法进行了详细的介绍。K-means算法是一种基于划分的聚类算法,它把n个对象划分成K个类,其中的聚类数目K是输入参数。该算法是通过不断地迭代来进行聚类,当算法收敛到一个结束条件时,就终止迭代过程,输出一个聚类结果。层次的方法对给定数据对象集合进行层次的分解,层次的聚类方法可以进一步分为凝聚的和分裂的层次聚类。模糊聚类分析的实质则是根据研究对象本身的属性来构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系。本文给出了科学文献的模糊聚类算法的具体算法描述,对于新的用户,当他们第一次浏览网站的时候,通过计算他们和其他用户的相似度对其进行归类。最后,本文将K-MEANS算法和层次聚类算法应用到中俄经贸合作网的日志分析系统中,对该网站的日志数据进行聚类,对模糊聚类算法进行了理论移植,实现了整体架构和数据库的框架设计,对最初始的数据进行了预处理,可以为今后的个性化服务做准备。