基于视觉信息的上下文广告关键词提取算法研究

基于视觉信息的上下文广告关键词提取算法研究

论文摘要

互联网已经成为目前最为重要的广告媒介之一,它能够以低成本将商品和服务向全世界的各个角落展示,这种独特能力吸引了众多的网络广告投资,也无形中带动了互联网的发展。在几年前,由于众多互联网公司的倒闭,一度严重影响了在线广告的投资,这种情况一直到2002年才有所缓解。而碰巧的是,促使在线广告在次得到发展的原因是出现了一种新的广告形式—搜索引擎广告。据Forrester研究公司预测,到2010年,这种广告形式将代表超过100亿美元的庞大市场。关于这一领域的研究,主要由各大商业搜索引擎公司开展,并形成了多个产品,比如Google的AdSense,Yahoo的Publisher Network等。这些系统都很成功,但其内部机制缺少透明性,对外仍是一个黑盒。本文尝试探索这个领域,并介绍作者在基于内容的在线广告系统方面的研究工作。考虑到广告的放置主要取决于所在的网页内容以及用户对该网页的理解,而用户最终是通过网页的浏览器渲染结果来理解这个网页的,这为利用网页的视觉信息来提取可行的广告关键词提供了一个可行的背景。本文首先介绍了作者在识别网页标题方面的工作。作者提出了一种基于网页标题模式学习和视觉特征的网页标题提取算法。其次介绍了作者在识别网页正文方面的工作。作者提出了一种基于网页视觉特征和内容特征相结合的学习机制。首先使用VIPS算法对网页进行语意分割,形成一棵层状语意块树,并使用网页标题提取算法定位网页的真实标题,配合VIPS结果一同确定网页的正文部分。随后介绍了作者对寻找网页关键字问题的研究。我们的目标是尽量最大化网页和广告之间的语意关联度,为此我们建立了一个基于网页正文、视觉特征、内容特征、统计结果的学习模型,并比较了多个特征类型对最终结果的贡献。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 研究意义和目的
  • 1.3 论文组织
  • 1.4 相关研究工作
  • 第2章 相关技术综述
  • 2.1 在线广告发展和现状
  • 2.1.1 在线广告优势
  • 2.1.2 在线广告收费模式
  • 2.1.3 关键词广告介绍
  • 2.1.4 上下文广告介绍
  • 2.2 搜索引擎构架
  • 2.3 网页分块算法概述
  • 2.3.1 基于DOM的分块算法
  • 2.3.2 基于视觉的分块算法
  • 2.3.3 基于布局的分段算法
  • 2.4 关键字提取算法概述
  • 2.4.1 统计概率模型
  • 2.4.2 文本分词算法
  • 2.5 文本匹配算法概述
  • 2.5.1 基于语意的匹配算法
  • 2.6 神经网络模型
  • 2.7 本章小结
  • 第3章 网页标题提取算法
  • 3.1 本章导论
  • 3.2 标题模式提取
  • 3.2.1 算法介绍
  • 3.2.2 算法简述
  • 3.3 标题识别算法
  • 3.3.1 视觉特征
  • 3.3.2 算法简述
  • 3.3.3 模型创建
  • 3.4 实验
  • 3.5 本章小结
  • 第4章 关键字提取算法
  • 4.1 本章导论
  • 4.2 网页正文提取算法
  • 4.2.1 算法由来
  • 4.2.2 算法简述
  • 4.3 关键字提取算法
  • 4.3.1 算法出发点
  • 4.3.2 网页内容预处理
  • 4.3.3 网页内容分词
  • 4.3.4 关键字选择策略
  • 4.4 实验
  • 4.4.1 实验数据
  • 4.4.2 实验设计
  • 4.4.3 实验结果
  • 4.5 本章小结
  • 第5章 上下文广告系统框架
  • 5.1 本章导论
  • 5.2 系统构架图
  • 5.2.1 广告服务器
  • 5.2.2 广告管理
  • 5.2.3 网页下载
  • 5.2.4 网页分析
  • 5.2.5 广告选择
  • 5.3 本章小结
  • 第6章 结论和展望
  • 6.1 主要研究内容与创新
  • 6.2 未来工作
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于视觉信息的上下文广告关键词提取算法研究
    下载Doc文档

    猜你喜欢