Web数据挖掘算法研究

Web数据挖掘算法研究

论文摘要

基于文本语义的文本挖掘系统的研究已经取得一定的成绩。但除了文本之外,Web中还存在其他的海量媒体如图像、音频、视频等,这对数据挖掘提出了新的机遇和挑战。本文主要针对的是图像的高层语义特征进行研究。图像是我们能够获捕的最有效的外界多媒体信息之一,并且在图像的各层特征中,顶层语义特征(又称上层特征)是最重要的并且是最容易得到的特征。作为多媒体信息的数据挖掘研究的初探,我们选择图片高层语义与文本语义作为多媒体信息挖掘的研究对象。首先,本文研究了网页主题提取和文本语义与图像语义,以及各种表示模型。在此基础上提出了一种基于启发式规则的多媒体信息挖掘框架。整个系统包括6个模块:页面分析器、主题内容提取,文本/图片信息抽取、特征提取器、融合模型(数据挖掘器)、判别器、语义浓缩器。系统最重要的模块是融合模型和语义浓缩器,这两个模块运用了很多自然语言处理(比如分词,特征项的提取,NE命名实体等)和数据挖掘的理论。其次,本文采用关联矩阵在语义层次融合了文本语义和图像语义;进一步把网页中的文本信息进行语义浓缩,研究了句子相似度计算算法并对目前算法的不足做出改进,从而较为精确地说明网页中的图片,及其更加丰富地说明图片的语义最后对基于启发式规则的多媒体信息数据挖掘系统进行了封闭性的测试,实验表明该方法具有较高的精确率和较满意的效果。在window2000下用JAVA语言实现了各模块功能,实验表明我们提出的模型是可行的。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究的背景及目的
  • 1.2 数据挖掘
  • 1.2.1 数据挖掘的由来
  • 1.2.2 数据挖掘的定义
  • 1.2.3 数据挖掘研究的内容和本质
  • 1.2.4 数据挖掘的功能
  • 1.2.5 数据挖掘未来研究方向
  • 1.3 国内外相关研究
  • 1.4 论文研究的内容及结构
  • 1.4.1 论文研究的内容
  • 1.4.2 论文的结构
  • 第2章 获取Web 主题内容的关键技术
  • 2.1 主题抽取算法概况
  • 2.2 融合模型采用的主题提取系统结构
  • 2.3 信息提取系统主要构建以及算法描述
  • 2.3.1 分块及其页面结构分析算法
  • 2.3.2 计算局部相关度
  • 2.3.3 Graph 生成算法
  • 2.3.4 相关链接识别算法
  • 2.4 结果演示
  • 2.5 本章小结
  • 第3章 Web 图像文本语义概述
  • 3.1 引言
  • 3.2 文本语义的概念以及获取文本语义的常用方法
  • 3.2.1 文本的表示模型
  • 3.2.2 文本的特征选择
  • 3.2.3 句法分析
  • 3.3 图像语义的概念以及获取图像语义的常用方法
  • 3.3.1 层次结构模型
  • 3.3.2 图像抽取模型
  • 3.3.3 语义网络模型
  • 3.4 本章小结
  • 第4章 多媒体信息融合框架
  • 4.1 引言
  • 4.2 相关研究
  • 4.3 融合算法及Web 内容数据挖掘
  • 4.3.1 总体框架
  • 4.3.2 页面分析和主题内容提取
  • 4.3.3 特征提取
  • 4.3.4 融合算法
  • 4.4 实验结果及其分析
  • 4.4.1 实验结果
  • 4.4.2 实验结果评定
  • 4.5 实验结果分析
  • 4.6 举例说明
  • 4.7 本章小结
  • 第5章 语义浓缩算法
  • 5.1 引言
  • 5.2 自动文摘关键技术
  • 5.2.1 句子相似度计算
  • 5.2.2 句子模型描述
  • 5.2.3 基于句子不同特征的相似度计算
  • 5.3 基于关键词和命名实体的句子相似度的算法研究
  • 5.3.1 有关命名实体(NE)的理论概述
  • 5.3.2 基于NE 和关键词的多特征融合句子相似度计算
  • 5.4 文摘句的抽取以及表示模型
  • 5.5 文摘的生成
  • 5.6 实验结果以及评价方法
  • 5.7 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间承担的科研任务与主要成果
  • 致谢
  • 作者简介
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    Web数据挖掘算法研究
    下载Doc文档

    猜你喜欢