论文摘要
随着互联网的快速发展,每时每刻都产生着大量有价值的数据,数据的自动分类已经成为研究热点之一。针对不同的数据和不同的需求,往往需要不同的处理方法。本文针对评论数据提出了基于增强语义的分类算法SeMep,针对多标签数据提出了基于随机游走的分类算法MLRW,主要工作包括以下三点:1.提出了基于增强语义的分类算法SeMep。以乐评数据为例,除了评论自身携带的文本信息,SeMep还通过分析与被评论音乐对象相关的语义音乐信息来增强乐评分类的预测精度。对于类别未知的评论,我们提出一种启发式算法,用于给出该评论属于不同类别的概率。同时,我们给出了一种通过度量分类器类别散度来有效合并多分类器输出结果的方法。此外,SeMep还包括了一个可选的基于规则的语义后处理过程,用于调整某些类别的预测概率。2.提出了基于随机游走的分类算法MLRW。MLRW将多标签数据映射成随机游走图,并在图上应用随机游走过程,其输出结果表征了标签未知数据与每个标签的相似性。MLRW同时提供了多标签分类和多标签排序问题的解决方案。作为多标签排序问题的解,MLRW在预测类别未知数据时,通过结合条件概率模型,给出该数据具有每个标签的概率分布;作为多标签分类问题的解,MLRW将原始的多标签问题转换为若干的二值分类问题,进而应用传统的单标签算法得到预测结果。3.基于Weka平台,本文设计并实现了SeMep和MLRW的原型系统并进行了详细的实验。针对SeMep的实验结果表明SeMep能够有效且高效的预测乐评属于每个类别的概率,基于分类散度的分类器组合方法能够达到比子分类器单独使用时更好的分类结果。我们在公开的文本、图像、视频和生物化学数据集上将MLRW和许多最新提出的多标签算法进行了细致的对比。实验结果表明,MLRW能够有效并且高效的解决多标签排序和分类问题,综合来看,MLRW的输出结果优于已有的多标签方法。
论文目录
摘要Abstract第1章 引言1.1 研究背景与课题意义1.1.1 基于增强语义的分类算法1.1.2 基于随机游走的分类算法1.2 研究内容与主要贡献1.2.1 本文研究内容1.2.2 本文主要贡献1.3 本文组织结构第2章 相关工作2.1 音乐评论分类2.1.1 评论挖掘2.1.2 乐评挖掘2.1.3 文本分类2.2 多标签分类2.2.1 基于问题转化的方法2.2.2 基于算法转化的方法2.2.3 随机游走2.3 本章小结第3章 基于增强语义的乐评分类算法SeMep3.1 预备知识3.1.1 音乐内容分类3.1.2 语义音乐字典3.2 乐评内容分类模型SeMep的建立3.2.1 语义预处理3.2.2 面向分类的短语选择3.2.2.1 问题描述3.2.2.2 向量构造模型3.2.2.3 Na¨ ve SVM COPS算法3.2.2.4 启发式COPS算法3.2.3 混淆矩阵的计算3.3 乐评内容分类模型SeMep的应用3.3.1 预测流程概述3.3.2 基于散度的分类结果合并3.3.3 基于规则的语义后处理3.4 本章小结第4章 基于随机游走的多标签分类算法MLRW4.1 预备知识4.2 MLRWR:多标签排序问题解决方案4.2.1 概要介绍4.2.2 多标签随机游走图4.2.3 多标签随机游走模型4.2.3.1 多标签随机游走图系列4.2.3.2 随机游走4.2.3.3 初始参数的确定4.2.3.4 多标签随机游走模型示例4.2.4 条件概率模型4.3 MLRWC:多标签分类问题解决方案4.3.1 概述4.3.2 将多标签问题转化为单标签问题4.4 讨论4.4.1 MLRW算法中随机游走的收敛性4.4.2 复杂度分析4.4.3 图剪枝4.5 本章小结第5章 基于Weka平台的原型系统与实验5.1 SeMep原型系统与相关实验5.1.1 原型系统与实验数据集5.1.2 对比方法5.1.2.1 基线方法5.1.2.2 Na¨ ve SeMep方法5.1.2.3 启发式SeMep方法5.1.3 语义预处理5.1.4 基线方法与Na¨ ve SeMep方法的对比试验5.1.5 Na¨ ve SeMep方法和启发式SeMep方法的对比试验5.1.6 基于规则的语义后处理5.2 MLRW原型系统与相关实验5.2.1 MLRW原型系统和实验数据集5.2.2 多标签度量指标5.2.3 多标签排序方法MLRWR的预测精度5.2.4 多标签分类方法MLRWC的准确性5.2.5 二值分类器对MLRWC预测精度的影响5.2.6 验证集大小对MLRWC预测精度的影响5.2.7 k-剪枝对MLRWC的影响5.2.8 MLRWC与其它算法的性能对比5.3 本章小结第6章 总结与展望6.1 总结6.2 工作展望参考文献致谢个人简历、在学期间发表的学术论文与研究成果
相关论文文献
标签:增强语义论文; 分类论文; 多标签论文; 随机游走论文;