论文摘要
在线广告如今已经成为一个拥有200亿美元的产业。它在成为众多网站提供商和一些广告中介商的重要收益来源的同时,也为广告商提供了新的媒体平台。为了使得广告中介商更有效地为终端用户提供在线广告,从而增加广告的点击量;我们必须首先了解广告中介商网络在网络层面与内容层面运行情况的不足,然后再进一步地进行改进。本论文首先测量了现有的三个主流在线广告网络平台:Google、AOL/Akamai和Adblade,并量化了他们网络层面和内容层面的性能。在此基础上,本论文从基于用户地理位置和基于用户行为的在线广告投放机制这两个方面来改进现有的在线广告网络。本论文的主要创新性成果包括以下四个方面:1.本论文是学术领域中第一篇从网络层面和内容层面测量在线广告网络的文章。本论文设计并实现了一套从网络层面和内容层面审计在线广告网络的系统。该系统可以广泛运用于任一广告中介商网络中,有效地监控并帮助调控基于Web的广告业。通过使用这个系统,本论文对拥有不同设计理念的广告中介商在网络层面和内容层面进行了分析,并证明了在线广告网络的底层设计与上层的网络层面和内容层面的服务有很大的关系。2.本论文设计并实现了一套精确度逐步提高的、无需客户端支持的IP地址位置定位系统。该系统把Web的数据挖掘和Internet网络测量的定位方法有效结合在一起,从而避免了单独使用任何一种方法所带来的不精确因素。通过对学校IP数据集上的测试,本论文证实这套系统的中值误差距离仅为690米。这比之前最好的IP地理定位系统的准确度提高了50倍。因此,当这套系统嵌入到基于用户地理位置的在线广告网络中,它可以很大程度上改进在线广告投放的有效性。3.本论文设计并实现了一套不需分析用户数据包有效载荷,可高准确度地恢复用户网页浏览记录的系统。该系统把Web网站爬寻统计和Internet网络流量分析方法有效结合,而不使用违反互联网法律的深度包检测技术。通过恢复大规模级别的网络流中的用户浏览记录,本论文证实这套系统可以达到86%以上的恢复成功率,和5%以下的误报率。因此,当这套系统嵌入到基于用户行为的在线广告网络中,它可以从根本上改变在线广告投放的合法性。4.本论文设计并实现了一套根据用户的浏览模式来准确自动地标识用户在线兴趣的系统。对于每一项用户浏览记录,该系统通过网站的域名或者在搜索引擎返回的结果上,采用关键字匹配的方法来实现兴趣分类。通过对三个月包含4.5万个用户的DNS网络流进行实验,本论文证实该套系统的正确率可以86.44%。因此,当这套系统嵌入到基于用户行为的在线广告网络中,它可以很大程度上改进在线广告投放的有效性。
论文目录
摘要ABSTRACT第一章 引言1.1 研究背景和动机1.2 在线广告网络及其相关核心技术的国内外研究现状1.2.1 在线广告网络1.2.1.1 评估与优化广告投放1.2.1.2 金融和电子竞拍1.2.1.3 个人隐私1.2.2 用户地理位置定位技术1.2.2.1 无需客户端支持的IP 地理定位1.2.2.2 需要客户端支持的IP 地理定位1.2.3 用户网页浏览记录恢复技术1.2.3.1 安全领域1.2.3.2 流量分析领域1.2.4 在线用户行为与兴趣分析技术1.2.4.1 DNS 网络流量分析1.2.4.2 在线社交网络分析1.2.4.3 用户行为分析1.2.4.4 用户统计资料分析1.3 论文的主要工作及创新点1.3.1 本文主要工作1.3.2 本文主要创新点1.4 论文的章节安排第二章 相关理论及技术基础2.1 基于 Web 的在线广告网络的工作机制2.1.1 基于Web 的广告网络的运行流程2.1.2 广告中介商的用户行为收集策略2.2 在线广告网络收入模式2.3 网页结构模型2.4 本章小结第三章 基于 Web 的在线广告网络的测量与评估3.1 测量与评估基于 Web 的在线广告网络的重要性3.2 本章总览3.3 测量与评估基于 Web 的在线广告网络3.3.1 评估平台3.4 绘制广告网络3.4.1 候选广告中介商的选择3.4.2 寻找规范化的 CName3.4.3 转换 CName 到 IP 地址3.4.4 转换 IP 地址到地理地址3.5 网络层面的性能3.5.1 延迟性能3.5.2 广告网络vs. 网站供应商网络3.6 内容层面的性能3.6.1 发布机制3.6.2 基于用户物理位置的投放广告策略3.6.3 基于用户行为的投放广告策略3.7 本章小结第四章 街道级别的无需客户端支持的IP 地理定位系统4.1 精确的IP 地理定位系统对在线广告网络的影响4.2 系统总览4.3 一个三层IP 地理定位系统4.3.1 第一层4.3.2 第二层4.3.3 第三层4.3.3.1 相对网络距离的效果4.4 提取和验证基于 Web 的基准点4.4.1 提取基准点4.4.2 验证基准点4.4.2.1 地址验证4.4.2.2 共享主机与CDN 验证4.4.2.3 多个分公司的验证4.4.3 存在链接工厂的网站4.4.3.1 网络性质4.4.3.2 网络模型和链接工厂垃圾信息4.4.3.3 链接工厂垃圾探测方法4.4.3.4 试验及分析4.4.4 对错误的抵抗能力4.5 系统评估4.5.1 数据集4.5.1.1 PlanetLab 学校IP 地址数据集4.5.1.2 住宅IP 地址数据集4.5.1.3 在线地图IP 地址数据集4.5.1.4 数据集的特点4.5.2 实验结果4.5.2.1 基线结果4.5.2.2 基准点密度4.5.2.3 全局的基准点密度4.5.2.4 人口密度的影响4.5.2.5 接入网络的影响4.6 本章小结第五章 不使用深度包检测的基于用户行为的广告定位技术5.1 当前基于用户行为的广告定位技术的不合法性分析5.2 系统总览5.3 从存储的TCP 包头部信息中恢复网页浏览记录5.3.1 方法论5.3.1.1 网站统计5.3.1.2 从网络流上提取网页的浏览特征5.3.1.3 检测算法5.3.2 处理误差来源5.3.2.1 对象的大小估算5.3.2.2 错误的其他来源5.4 系统评价5.4.1 实验配置5.4.1.1 网站统计5.4.1.2 TCP 级别的网络流5.4.2 网站中网页的唯一性5.4.3 基本性能5.4.4 时间因素对恢复算法的影响5.4.4.1 实验方法5.4.4.2 性能5.4.4.3 变化率5.4.5 不同的浏览情况对恢复算法的影响5.4.5.1 Pipelining5.4.5.2 缓存5.4.5.3 网页重叠下载5.4.5.4 不同的浏览器5.4.6 使用完整的网站统计信息5.5 真实测试集下的试验5.6 本章小结第六章 基于DNS 网络流的在线用户行为与兴趣分析6.1 研究在线用户浏览行为的动机和重要性6.2 本章总览6.3 方法论6.3.1 DNS 缓存时间与数据集介绍6.3.1.1 DNS 缓存时间6.3.1.2 数据集描述6.3.2 标识用户浏览兴趣6.3.2.1 获取与兴趣相关的关键词6.3.2.2 从域名中获取用户兴趣6.3.2.3 通过Google 摘要获取用户兴趣6.3.2.4 验证6.3.3 用位置信息标识DNS 记录6.3.4 用应用程序标识DNS 记录6.3.5 净化数据集6.3.5.1 错误的DNS 记录6.3.5.2 MX 和PTR 类型6.3.5.3 移除附属的DNS 查询6.3.5.4 CDN 和广告服务器列表6.3.5.5 移除自动产生的查询6.3.6 发现多用户使用的机器6.3.6.1 电子邮件不一致6.3.6.2 位置异常6.3.6.3 流量异常6.4 在内容和时间层面的用户访问特征6.4.1 电子邮件“规则”6.4.2 用户访问互联网的频率6.4.3 用户访问互联网的时长6.4.4 用户的第一次点击6.4.5 点击之间的相关联系6.4.6 区域影响6.5 基于用户兴趣的聚类分析6.5.1 聚类属性6.5.2 聚类的静态特征6.5.3 聚类之间的关联6.5.4 聚类的上网时长6.6 本章小结第七章 全文总结和未来工作展望7.1 全文总结7.2 未来工作展望致谢参考文献攻博期间取得的研究成果一、科研情况二、发表的论文三、曾获奖励情况
相关论文文献
标签:在线广告网络论文; 网络测量论文; 基于用户地理位置论文; 基于用户行为论文;