论文摘要
自Internet诞生起,各种基于Internet的服务层出不穷,当前随着通信网络带宽的不断增加,在线收听音乐已成为网民上网的主要娱乐活动之一。据中国互联网络信息中心(CNNIC,2009)所发布的第23次《中国互联网络发展状况统计报告》显示,截至2008年12月31日,中国网民规模达到2.98亿人,是继2008年6月中国网民规模首次超过美国成为全球第一后的又一重要飞跃。面对如此庞大的用户群体,各大音乐网站纷纷使用各种方法吸引用户访问自己的网站,提高网站访问量以便为网站带来巨大的商业利益。然而当今互联网上各种资源的数据量与日俱增,用户所需信息难以直接、有效的获得,信息系统与用户之间互动性不强,不能向用户主动推荐信息,而是被动的由用户来搜索、选择信息,人们越来越多的淹没在数据的海洋里,而找不到自己感兴趣的信息,盲目的迷航式浏览已经成为人们访问网络的常态。当前国内外各大网络公司如Google、Amazon、百度、阿里巴巴等公司均在各自的网站中应用各种数据挖掘技术进行Web挖掘。本文中通过引入数据挖掘技术设计音乐网站音乐智能推荐系统来解决用户从大量音乐中直接、有效的挑选自己所喜爱的音乐问题。其中使用基于用户访问行为分析的协同过滤技术生成用户访问行为模型,并由TOP-N算法依据此模型生成音乐推荐列表,定向推荐给用户。传统方法中TOP-N算法需要从整个用户群体中选择与目标用户最为相似的若干个用户,并选择这些用户打分最高的前N首音乐推荐给用户。从整个用户群体中选择与目标用户最为相似的若干用户需要较高的计算代价,不具有实时性。因此本文所设计的系统中预先对用户访问行为进行聚类计算,将相似用户划分至相同簇中,这样避免传统方法中计算代价较高的问题。计算过程中由于访问关系型数据库效率较低,本文中将关系型数据库中数据导出至Berkeley DB中,以便提高数据访问速度。使用基于划分的聚类算法时需要指定划分簇数K,在对数据没有较好认知的情况下很难正确选择簇数K。遗传算法是一种具有良好并行性,广泛用于优化计算的算法。本文将遗传算法与CLARANS聚类算法相互结合提出一种新型的聚类算法GA-CLARANS用于未知簇数K的聚类计算。由于遗传算法具有良好并行性这一特点,本文中将GA-CLARANS算法部署在MPI集群环境上进一步提高算法的运行效率,有效的进行了用户访问行为数据聚类计算。通过实验结果表明GA-CLARANS算法能够快速、准确的进行聚类计算,满足音乐网站音乐智能推荐系统的实际需求。
论文目录
相关论文文献
- [1].基于遗传算法和CLARANS的一种改进聚类算法[J]. 计算机与现代化 2008(03)
- [2].基于改进的CLARANS算法在数据挖掘中的研究[J]. 中南林业科技大学学报 2010(03)
- [3].基于改进CLARANS算法的孤立点检测[J]. 计算机与数字工程 2008(07)
- [4].空间平滑搜索CLARANS算法[J]. 小型微型计算机系统 2008(04)
- [5].不确定性目标的CLARANS聚类算法[J]. 计算机工程 2012(11)
- [6].基于网格结构的CLARANS改进算法[J]. 计算机工程 2012(06)
- [7].基于网格结构的二次CLARANS聚类算法[J]. 计算机应用与软件 2013(03)
- [8].QPSO优化的改进CLARANS聚类算法[J]. 计算机工程与应用 2013(09)
- [9].基于CLARANS的一种改进的空间实体约束聚类算法[J]. 煤炭技术 2010(08)