论文摘要
互联网已经成为目前最为重要的广告媒介之一,它能够以低成本将商品和服务向全世界的各个角落展示,这种独特能力吸引了众多的网络广告投资,也无形中带动了互联网的发展。在几年前,由于众多互联网公司的倒闭,一度严重影响了在线广告的投资,这种情况一直到2002年才有所缓解。而碰巧的是,促使在线广告在次得到发展的原因是出现了一种新的广告形式—搜索引擎广告。据Forrester研究公司预测,到2010年,这种广告形式将代表超过100亿美元的庞大市场。关于这一领域的研究,主要由各大商业搜索引擎公司开展,并形成了多个产品,比如Google的AdSense,Yahoo的Publisher Network等。这些系统都很成功,但其内部机制缺少透明性,对外仍是一个黑盒。本文尝试探索这个领域,并介绍作者在基于内容的在线广告系统方面的研究工作。考虑到广告的放置主要取决于所在的网页内容以及用户对该网页的理解,而用户最终是通过网页的浏览器渲染结果来理解这个网页的,这为利用网页的视觉信息来提取可行的广告关键词提供了一个可行的背景。本文首先介绍了作者在识别网页标题方面的工作。作者提出了一种基于网页标题模式学习和视觉特征的网页标题提取算法。其次介绍了作者在识别网页正文方面的工作。作者提出了一种基于网页视觉特征和内容特征相结合的学习机制。首先使用VIPS算法对网页进行语意分割,形成一棵层状语意块树,并使用网页标题提取算法定位网页的真实标题,配合VIPS结果一同确定网页的正文部分。随后介绍了作者对寻找网页关键字问题的研究。我们的目标是尽量最大化网页和广告之间的语意关联度,为此我们建立了一个基于网页正文、视觉特征、内容特征、统计结果的学习模型,并比较了多个特征类型对最终结果的贡献。