论文摘要
以Blog(博客)、Tag(标签)、SNS(Social Networking Service,社会网络服务)、RSS(简易信息聚合)、Wiki(维客)等社会软件的应用为核心的Web2.0热潮在全球范围内愈演愈烈。在Web2.0的热潮中,SNS网站的发展潜力最受关注。SNS网站依据六度分隔理论建立,以认识的朋友(一度关系人)为基础,在已有朋友的基础上扩展自己的关系网(一至六度关系),从而得到强大而有效的社会资源。六度分隔系统是SNS网站上的一个应用,帮助用户在SNS网站的用户群中寻找、建立稳固的一至六度关系,使用户在六度关系之上进行广泛的社会及商业应用。由于SNS是新事物,目前国内外对六度关系的建立采取传统的关键字搜索,所建立的六度关系“脆弱”,不能体现SNS的个性化和社会化需求,使得六度关系在功能上不能发挥应有的强大作用。针对实际应用需求,本文将数据挖掘领域中最重要的两个技术:关联规则挖掘技术和分类技术,结合权重的思想,开创性地应用到SNS六度分隔的实现上来。这个系统工作在客户端,利用关联规则技术挖掘用户的潜在交友模式,综合使用“系统评级”和“个性化评级”对属性进行加权,提高了挖掘规则的准确性;使用了规则加权的分类技术对规则进行修剪。为用户提供了:1.带有权重的一度关系人,使六度关系更新建立在可靠的一度关系之上;2.根据不同分类规则对网站陌生用户进行分类,使用户可以基于这样的分类群发针对性的邮件,实现社会目的(交友)和商业目的(推广商品)。本文的主要研究工作和创新包括:1.在对用户基本信息的处理上,考虑到挖掘的完整性,提出了针对本系统特点的文本属性概化、数值属性聚类及关联度加权补齐空缺值的方法;2.在加权类关联规则的挖掘上,考虑到挖掘的准确性,使用“系统评级”和“个性化评级”综合反馈用户信息,提出属性加权的类关联规则挖掘算法,以提高类关联规则的精确性;3.在用户分类的实现上,使用加权分类技术对类关联规则进行加权修剪,改进了传统的CBA算法,创建针对个人用户的分类器,挖掘带有权重的一度关系人;4.运用以上技术设计并实现了基于关联规则的六度分隔系统。与传统的六度分隔系统相比,基于关联规则的六度分隔系统具有智能程度高和针对性强的特点,适应了用户个性化需求,有着很好的实际应用价值。