论文摘要
基于文本语义的文本挖掘系统的研究已经取得一定的成绩。但除了文本之外,Web中还存在其他的海量媒体如图像、音频、视频等,这对数据挖掘提出了新的机遇和挑战。本文主要针对的是图像的高层语义特征进行研究。图像是我们能够获捕的最有效的外界多媒体信息之一,并且在图像的各层特征中,顶层语义特征(又称上层特征)是最重要的并且是最容易得到的特征。作为多媒体信息的数据挖掘研究的初探,我们选择图片高层语义与文本语义作为多媒体信息挖掘的研究对象。首先,本文研究了网页主题提取和文本语义与图像语义,以及各种表示模型。在此基础上提出了一种基于启发式规则的多媒体信息挖掘框架。整个系统包括6个模块:页面分析器、主题内容提取,文本/图片信息抽取、特征提取器、融合模型(数据挖掘器)、判别器、语义浓缩器。系统最重要的模块是融合模型和语义浓缩器,这两个模块运用了很多自然语言处理(比如分词,特征项的提取,NE命名实体等)和数据挖掘的理论。其次,本文采用关联矩阵在语义层次融合了文本语义和图像语义;进一步把网页中的文本信息进行语义浓缩,研究了句子相似度计算算法并对目前算法的不足做出改进,从而较为精确地说明网页中的图片,及其更加丰富地说明图片的语义最后对基于启发式规则的多媒体信息数据挖掘系统进行了封闭性的测试,实验表明该方法具有较高的精确率和较满意的效果。在window2000下用JAVA语言实现了各模块功能,实验表明我们提出的模型是可行的。
论文目录
摘要Abstract第1章 绪论1.1 研究的背景及目的1.2 数据挖掘1.2.1 数据挖掘的由来1.2.2 数据挖掘的定义1.2.3 数据挖掘研究的内容和本质1.2.4 数据挖掘的功能1.2.5 数据挖掘未来研究方向1.3 国内外相关研究1.4 论文研究的内容及结构1.4.1 论文研究的内容1.4.2 论文的结构第2章 获取Web 主题内容的关键技术2.1 主题抽取算法概况2.2 融合模型采用的主题提取系统结构2.3 信息提取系统主要构建以及算法描述2.3.1 分块及其页面结构分析算法2.3.2 计算局部相关度2.3.3 Graph 生成算法2.3.4 相关链接识别算法2.4 结果演示2.5 本章小结第3章 Web 图像文本语义概述3.1 引言3.2 文本语义的概念以及获取文本语义的常用方法3.2.1 文本的表示模型3.2.2 文本的特征选择3.2.3 句法分析3.3 图像语义的概念以及获取图像语义的常用方法3.3.1 层次结构模型3.3.2 图像抽取模型3.3.3 语义网络模型3.4 本章小结第4章 多媒体信息融合框架4.1 引言4.2 相关研究4.3 融合算法及Web 内容数据挖掘4.3.1 总体框架4.3.2 页面分析和主题内容提取4.3.3 特征提取4.3.4 融合算法4.4 实验结果及其分析4.4.1 实验结果4.4.2 实验结果评定4.5 实验结果分析4.6 举例说明4.7 本章小结第5章 语义浓缩算法5.1 引言5.2 自动文摘关键技术5.2.1 句子相似度计算5.2.2 句子模型描述5.2.3 基于句子不同特征的相似度计算5.3 基于关键词和命名实体的句子相似度的算法研究5.3.1 有关命名实体(NE)的理论概述5.3.2 基于NE 和关键词的多特征融合句子相似度计算5.4 文摘句的抽取以及表示模型5.5 文摘的生成5.6 实验结果以及评价方法5.7 本章小结结论参考文献攻读硕士学位期间承担的科研任务与主要成果致谢作者简介
相关论文文献
标签:数据挖掘论文; 内容挖掘论文; 语义论文; 融合模型论文; 启发式规则论文; 自然语言处理论文;