论文摘要
频繁浏览路径的挖掘是Web使用挖掘中的一个重要研究领域,它对于电子商务网站的商业决策、改善网站建设等都有现实的指导意义。通过对大量文献的研究,本文提出了两种基于Web日志的频繁路径的挖掘算法。一、提出了一种新的基于Web日志的挖掘用户浏览偏爱路径的方法。首先,综合考虑影响用户浏览兴趣的Web日志中的浏览次数、浏览时间和浏览接收字节数等因素,采用算术法求解兴趣度;其次以浏览兴趣度为基本元素,以“三矩阵”为数据结构实现挖掘算法,这种“三矩阵”的数据结构避免了多次频繁浏览数据库,提高了算法的效率。以存储矩阵为基础建立会话矩阵和路径矩阵后,再在会话矩阵上采用两个页面向量夹角余弦作为相似用户的页面距离公式进行页面聚类,求得相似用户的相关页面集。本文采用的计算页面距离的公式,解决了Humming距离的不足之处,全面考虑了Web日志中多种因素对页面距离产生的影响,得到的相关页面集更精确,相似度更高,进而提高了算法的准确性;最后利用路径选择偏爱度在相似用户的路径矩阵上挖掘出相似用户的浏览偏爱路径。二、提出了一种基于Web日志的用户连续频繁路径的挖掘算法。采用多元线性回归的方式实现了兴趣度的线性求解;其次将浏览兴趣度作为一个属性,根据不同需求生成三种Web浏览树,此浏览树不仅解决了连续可回溯路径的描述问题,而且可以全面反映用户浏览情况,使结果更全面,更实用;以三种浏览树为前提,生成倒序单子树序列,在经过整合倒序单子树后的RT树上挖掘出频繁浏览路径。本文提出的两种算法不仅在页面浏览兴趣度的求解方法上提出了创新性的改进,而且提升了频繁路径的精准性和合理性。实验证明算法结果更真实,更全面。