基于关键词的文本流分类技术研究

基于关键词的文本流分类技术研究

论文摘要

传统的数据流分类技术通常需要大量的全标注训练样本来构建分类器,代价昂贵且比较耗时。但在现实生活中,数据流中的数据大多是未标注的,这使得传统的流分类技术缺乏实用性。针对该问题,近年来,基于半监督的数据流分类技术有了一定的发展,有些研究者提出了采用部分标记的样本或仅标记的少量正例样本以及大量的未标记样本来构建基分类器进行数据流分类。虽然这些方法降低了人工标记样本的代价,但仍需要用户提供一定量的标注样本。针对文本数据流分类问题,为了进一步减轻人工标记样本的负担,本文提出了一种使用与主题类别相关的关键词进行文本流分类的新方法,本方法不需要人工对训练样本进行标记。本研究的主要思想如下:首先通过关键词和大量的未标记文档构建基分类器,然后使用分类器集成算法对文本流中的数据进行分类。在构建分类器阶段,关键词通过语义扩展后用来对初始的正例样本进行标注。在分类阶段,待测样本的类别通过加权多数投票算法来预测。本文还对文本流中的概念漂移进行了学习,研究了因用户兴趣的改变而出现的概念漂移现象,用户提供的关键词决定了当前的用户兴趣和目标概念,用户兴趣发生改变时,概念漂移也随之发生。本研究主要模拟了概念逐渐漂移和概念突变漂移的常见场景,并与无概念漂移的场景做了对比分析。实验结果表明,在不使用人工标记的训练样本条件下,本文提出的基于关键词的分类方法能够构建性能较好的分类器。与基于正例和未标记样本的PU分类器学习方法性能非常接近。本文采用的分类器集成方法能快速检测文本流中的概念漂移,并能很好地适应概念漂移。多次实验结果也显示出基于集成的分类算法的平均F1和Accuracy值要比基于single window的分类算法好。本文提出的文本流分类方法不需要人工标记训练文档,具有很好的现实意义。

论文目录

  • 摘要
  • abstract
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 研究现状
  • 1.3 研究内容
  • 1.4 组织结构
  • 第二章 数据流概述及标记样本不足的文本流分类方法
  • 2.1 数据流及概念漂移
  • 2.1.1 数据流定义
  • 2.1.2 数据流特征
  • 2.1.3 概念漂移
  • 2.2 数据流挖掘
  • 2.2.1 数据流聚类
  • 2.2.2 数据流分类
  • 2.2.3 数据流频繁模式挖掘
  • 2.3 文本分类概述
  • 2.3.1 文本分类
  • 2.3.2 预处理技术
  • 2.3.3 文本分类常用算法
  • 2.4 标记样本不足的文本数据流分类研究方法
  • 2.4.1 基于部分正例和负例样本的文本数据流分类
  • 2.4.2 基于少量正例样本和大量未标注样本的文本数据流分类
  • 2.5 本章小结
  • 第三章 通过关键词对文本流进行分类
  • 3.1 通过关键词和未标注样本构建基分类器
  • 3.1.1 通过关键词检索相关文档
  • 3.1.2 抽取部分正例样本
  • 3.1.3 抽取可能的负例样本
  • 3.1.4 扩充正负例样本
  • 3.1.5 纯化负例样本
  • 3.2 利用分类器集成技术对文本数据流进行分类
  • 3.3 本章小结
  • 第四章 实验及结果分析
  • 4.1 实验
  • 4.1.1 数据集
  • 4.1.2 实验设置
  • 4.2 结果分析
  • 4.2.1 构建基础分类器实验结果及分析
  • 4.2.2 文本流分类结果分析
  • 4.2.3 参数分析
  • 4.3 本章小结
  • 第五章 总结与展望
  • 5.1 总结
  • 5.2 展望
  • 参考文献
  • 致谢
  • 作者简介
  • 相关论文文献

    • [1].基于人工智能的磁芯产品缺陷检测与分类技术[J]. 电子技术与软件工程 2020(06)
    • [2].常见白细胞五分类技术简介[J]. 中国卫生产业 2012(03)
    • [3].数据挖掘分类技术研究与分析[J]. 现代电子技术 2010(20)
    • [4].中国医疗器械分类技术委员会工作机制探究[J]. 中国药事 2017(09)
    • [5].流量分类技术精细管理网络[J]. 中国教育网络 2012(02)
    • [6].血细胞五分类技术及其应用进展[J]. 医疗卫生装备 2009(06)
    • [7].图像场景分类技术综述[J]. 电子学报 2019(04)
    • [8].面向开放域问答的问题分类技术研究进展[J]. 电子学报 2015(08)
    • [9].基于投影寻踪分类技术的各地区吸纳就业能力综合评价[J]. 社会保障研究 2013(05)
    • [10].基于关键词的Flash分类技术研究[J]. 中小学电教(下) 2011(01)
    • [11].微博中的社交意图识别与分类技术研究[J]. 内蒙古科技大学学报 2020(02)
    • [12].白灵菇分类技术研究进展[J]. 安徽农业科学 2009(01)
    • [13].音频分类技术在广播质量评估中的应用浅析[J]. 电子制作 2015(14)
    • [14].分类技术在数据挖掘中的应用研究[J]. 科技信息 2010(24)
    • [15].P2P服务分类技术的负载平衡策略研究[J]. 计算机应用 2008(01)
    • [16].数据挖掘分类技术在高校教学中的应用[J]. 电脑知识与技术 2009(24)
    • [17].基于分类技术的目标客户辅助定位方法研究[J]. 江苏通信 2008(03)
    • [18].数据流分类技术分析[J]. 计算机与现代化 2010(01)
    • [19].音频分类技术在广播质量评估中的应用[J]. 广播与电视技术 2010(10)
    • [20].波形分类技术在储层沉积微相预测中的应用[J]. 石油物探 2008(03)
    • [21].局部放电脉冲波形特征提取及分类技术[J]. 中国电机工程学报 2013(28)
    • [22].中医诊断模型构建中的两种常用数据挖掘分类技术[J]. 数理医药学杂志 2013(05)
    • [23].波形分类技术及在WZ油田中的应用[J]. 内江科技 2012(01)
    • [24].食品安全大数据的融合及分类技术综述[J]. 计算机技术与发展 2020(02)
    • [25].基于监督学习的中文情感分类技术比较研究[J]. 散文百家 2018(08)
    • [26].基于DDAG-SVM的网络流量分类技术[J]. 数学的实践与认识 2013(08)
    • [27].网络流量分类方法研究[J]. 信息通信 2017(08)
    • [28].基于文本倾向性分类技术的图书评价模型[J]. 昆明理工大学学报(理工版) 2009(04)
    • [29].遥感数据计算机分类在土地调查中的应用[J]. 数字技术与应用 2016(05)
    • [30].自动数字图像分类技术的应用领域研究[J]. 智富时代 2018(09)

    标签:;  ;  ;  ;  ;  

    基于关键词的文本流分类技术研究
    下载Doc文档

    猜你喜欢