社会媒体网页内容分割与主题频繁簇的抽取

社会媒体网页内容分割与主题频繁簇的抽取

论文摘要

随着互联网的普及和计算机技术的迅猛发展,Web已成为人们日常生活中获取知识、技术共享、信息交流的重要平台。越来越多的互联网用户在博客、论坛、社区等网站上以文本、图像、音乐、视频等形式发表用户体验内容和用户为中心的内容,形成数据日益庞大的社会媒体。如何快速有效地从社会媒体网页中获取人们真正需要的信息成为一个亟需解决的重要课题,因此Web信息抽取技术随之产生,并引起了学术界和商业领域越来越多的关注。与传统的信息资源相比,社会媒体网页中95%以上是非结构化或半结构化形式的数据型网页,缺乏严格规范的语法结构。由于社会媒体网页的海量性、开放性、多样性、动态性等特点,传统的自然语言处理技术和应用程序无法直接获取并利用社会媒体网页上的海量信息。从这些社会媒体网页中抽取相关信息(如产品信息、论坛帖子内容)并进行综合分析,能让我们广泛地了解当前用户的需求、产品的缺陷、社会的热点,具有重大的社会价值和经济价值。目前,社会媒体站点大多是利用数据库和预定义模板动态生成网页。网页中的不同区域分别表示菜单、导航、版权和内容等部分。这些不同功能的区域所用的HTML标记并无不同,但是,有些局部会反复出现。本文充分利用该类社会媒体网页的上述特点,从这些反复出现的局部归纳出稳定的模式,通过所获得的模式来自动抽取所涉及的信息。本论文以社会媒体网页为研究对象,主要针对Web信息抽取关键技术开展了深入系统的研究,提出了一种社会媒体网页内容分割与主题频繁簇的抽取方法。本论文的主要研究工作如下:1、利用k-means聚簇方法识别页面中具有类似结构的频繁块,得到一个频繁簇集合,2、从频繁簇集合中识别关于用户言论的主题频繁簇,3、根据主题频繁簇中频繁块的结构特征生成抽取规则。该算法的重要特点是利用相同来源的网页内容表达模式相同的特点来分割和生成抽取规则。实验结果表明该算法能有效地处理各种风格的社会媒体网页,达到应用水平的准确率和召回率。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景及研究意义
  • 1.2 国内外研究现状
  • 1.2.1 基于自然语言处理方式的信息抽取
  • 1.2.2 基于包装器归纳方式的信息抽取
  • 1.2.3 基于人工本体方式的信息抽取
  • 1.2.4 基于HTML 结构分析方式的信息抽取
  • 1.2.5 基于隐马尔可夫模型方式的信息抽取
  • 1.2.6 基于自定义Web 查询方式的信息抽取
  • 1.3 本论文的研究内容
  • 1.4 本论文的内容组织
  • 第2章 相关背景知识介绍
  • 2.1 Web 页面半结构化特点
  • 2.2 信息检索及信息抽取
  • 2.3 Web 信息抽取
  • 2.4 Web 信息抽取中应用的网页技术标准
  • 2.4.1 HTML
  • 2.4.2 XML
  • 2.4.3 XHTML
  • 2.5 DOM
  • 2.6 k-means 聚簇方法
  • 2.7 本章小结
  • 第3章 社会媒体网页内容的分割与主题频繁簇的抽取系统设计
  • 3.1 概述
  • 3.2 整体研究思路
  • 3.3 系统总体流程图
  • 3.4 社会媒体网页内容分割与主题频繁簇的抽取算法
  • 3.4.1 社会媒体页面的收集
  • 3.4.2 社会媒体页面的预处理
  • 3.4.3 频繁块的识别
  • 3.4.4 主题频繁簇的识别
  • 3.4.5 抽取规则的生成
  • 3.5 本章小结
  • 第4章 社会媒体网页内容的分割与主题频繁簇的抽取系统实现
  • 4.1 概述
  • 4.2 社会媒体页面的收集
  • 4.3 社会媒体页面的预处理
  • 4.3.1 文档清理
  • 4.3.2 文档解析
  • 4.4 社会媒体页面内容的分割
  • 4.4.1 频繁块的识别
  • 4.4.2 主题频繁簇的识别
  • 4.5 抽取规则的生成
  • 4.6 信息抽取
  • 4.7 实验结果与分析
  • 4.7.1 实验数据
  • 4.7.2 主题频繁簇中频繁块识别的实验结果与分析
  • 4.7.3 抽取规则生成的实验结果与分析
  • 4.8 本章小结
  • 第5章 结论和展望
  • 5.1 结论
  • 5.2 展望
  • 参考文献
  • 致谢
  • 附录A (攻读硕士学位期间参与的项目及投发的论文)
  • 相关论文文献

    • [1].技术传播的用户画像分析理论对网页内容设计的启示[J]. 海外英语 2019(03)
    • [2].浏览器快速处理网页内容[J]. 电脑爱好者 2017(13)
    • [3].iOS 9应用小技巧[J]. 电脑迷 2015(11)
    • [4].网页内容提取工具的设计与实现[J]. 电脑知识与技术 2011(32)
    • [5].解决网页内容不可复制问题[J]. 黑龙江科技信息 2011(35)
    • [6].时空穿梭 快速找回以前看过的网页内容[J]. 电脑迷 2010(16)
    • [7].移动元搜索引擎中网页内容提取算法研究[J]. 现代图书情报技术 2010(10)
    • [8].基于向量空间的网页内容相似度计算方法研究[J]. 计算机与现代化 2010(09)
    • [9].网页内容快速保存 快拖云收藏[J]. 电脑知识与技术(经验技巧) 2012(11)
    • [10].对超长网页内容进行截图[J]. 电脑知识与技术(经验技巧) 2019(08)
    • [11].基于块分布的新闻网页内容提取[J]. 吉林大学学报(工学版) 2009(05)
    • [12].基于文本对象模型的自动化网页内容提取方法[J]. 上海交通大学学报 2018(10)
    • [13].蚁群算法在网页内容分类中的应用研究[J]. 计算机系统应用 2009(04)
    • [14].基于网页内容相似度和链接关系的社区发现及动态添加[J]. 郑州大学学报(理学版) 2011(01)
    • [15].基于网页内容和链接价值的相关度方法的实现[J]. 计算机工程与设计 2008(23)
    • [16].精彩内容 瞬间分享[J]. 电脑迷 2010(10)
    • [17].祝贺本刊2010~2011年上半年网页点击逾10万次[J]. 中国矫形外科杂志 2011(15)
    • [18].祝贺本刊2011年上半年网页点击逾10万次[J]. 中国矫形外科杂志 2011(16)
    • [19].指指点点,文字、图片轻松抓[J]. 电脑爱好者 2008(17)
    • [20].揭开IE浏览器自动关闭谜底[J]. 个人电脑 2013(07)
    • [21].揭开IE浏览器自动关闭谜底[J]. 个人电脑 2017(11)
    • [22].苹果Ⅰ族应用技巧十二则[J]. 电脑知识与技术(经验技巧) 2015(11)
    • [23].一键清除Google的网络历史记录[J]. 电脑爱好者 2011(19)
    • [24].教你几招解决无法复制的网页内容[J]. 电脑知识与技术(经验技巧) 2012(06)
    • [25].老业务的2.0[J]. 21世纪商业评论 2008(06)
    • [26].网摘 得配备好武器[J]. 电脑爱好者(普及版) 2009(04)
    • [27].基于访问日志的网页内容监控挖掘系统[J]. 计算机工程 2011(04)
    • [28].不让图片帖子显示安全警告[J]. 电脑迷 2010(07)
    • [29].浅谈新时期编辑在图书线上销售中的价值体现[J]. 参花(下) 2018(09)
    • [30].Web网页内容特征库的构建及应用[J]. 情报探索 2009(04)

    标签:;  ;  ;  ;  

    社会媒体网页内容分割与主题频繁簇的抽取
    下载Doc文档

    猜你喜欢