基于知识型数据的监督学习

基于知识型数据的监督学习

论文摘要

本文研究基于知识型数据的学习问题。传统机器学习问题主要依赖于带标注的训练样本来完成建模与预测。但是一个公认的问题是标注数据是非常费时与费力的,已经成为机器学习继续发展的一个很大的瓶颈。机器学习的一个很重要的应用就是网页,文本数据的分类。为了能够对网页数据进行高质量的分类,需要大量的文本训练集。本文注意到一个新的趋势,就是随着互联网的飞速发展和广泛应用,越来越多的服务和应用出现在互联网上。这些数据不仅仅是平面的文本数据,同时带有类标,结构等等格外的信息。考虑到任何人都可以很容易的得到大量的互联网数据,本文解决的的问题是,通过互联网知识对机器学习的过程进行监督,从而减少机器学习算法,特别是文本分类算法对人工标注数据的依赖。为了达到这样的目的,本文从两个角度来解决问题。第一是设计知识型数据的获取算法,第二是设计知识型数据进行监督学习的算法。对于知识型数据获取的研究算法,本文研究如何将平面的,没有任何额外信息的网页数据进行自动标注,从而使得其成为知识型数据。本文的研究思路是依照网络上大量存在的层次结构,对网页数据进行自动分类。研究的难点是,待选择的类的数量非常庞大,传统的机器学习和分类算法无法取得很好的效果。与此同时,基于知识型的算法要求很高的效率,对于算法的设计有很大的限制。本文在这方面取得了一定的突破。本文注意到朴素贝叶斯分类器具有速度快,易实现,通用性强等在当前问题中非常需要的特性。虽然传统朴素贝叶斯分类器的效果非常差,通过深入挖掘朴素贝叶斯分类器在大规模类空间的特性,找到了朴素贝叶斯分类器存在的两个严重问题,通过修正这些问题,使得朴素贝叶斯分类器的效果得到了大幅度的提升。从而能够提供可靠的知识型数据。对于设计知识型数据进行监督学习的算法,本文研究如何利用带有类标信息的知识型数据,来取代文档分类中的训练集,达到相当于有训练集的学习效果。研究的难点是互联网知识型数据涵盖大量的语义信息,而待分类的文本的语义信息比较集中。为了克服这样一个差距,本文设计了一个两阶段风险最优化算法。在第一阶段中,该算法生成对于待分类文本最相关的知识型数据。在第二阶段,知识型数据与待分类数据进行深度交互,从而挖掘出知识型数据中对于学习任务有用的信息。整个学习的过程是在风险最优化框架下,利用概率模型进行建模。该算法在实验中取得了较好的结果。不仅大大高于对比试验,同时能够取的和使用标注数据集的分类算法相近的表现效果。

论文目录

  • 摘要
  • ABSTRACT(英文摘要)
  • 第一章 绪论
  • 1.1 传统机器学习算法
  • 1.1.1 有监督的机器学习
  • 1.1.2 半监督的机器学习
  • 1.1.3 迁移学习算法
  • 1.2 知识型数据监督的学习
  • 第二章 知识型数据的生成――大规模类信息自动标注
  • 2.1 简介
  • 2.2 朴素贝叶斯分类器和平滑算法
  • 2.2.1 多项式模型朴素贝叶斯分类器
  • 2.2.2 平滑算法
  • 2.3 朴素贝叶斯分类器的两个问题
  • 2.3.1 数据集
  • 2.3.2 标准朴素贝叶斯分类器的效果
  • 2.3.3 第一个问题:冲突对
  • 2.3.4 第二个问题:关键证据淹没问题
  • 2.3.5 改进型朴素贝叶斯分类器
  • 2.3.5.1 调整权重的朴素贝叶斯分类器
  • 2.3.5.2 带参数的平滑贝叶斯方法
  • 2.3.6 改进朴素贝叶斯的实验
  • 2.3.7 本节的一些相关工作
  • 第三章 知识型数据的使用――监督学习算法
  • 3.1 简介
  • 3.2 两阶段风险优化算法
  • 3.2.1 问题的定义
  • 3.2.2 风险最小框架下对知识型数据监督学习的建模
  • 3.2.3 第一阶段;最小化独立风险
  • 3.2.4 第二阶段:最小化非独立风险
  • 3.3 实现细节
  • 3.4 知识型数据监督算法的实验
  • 3.4.1 实验设计
  • 3.4.2 实验效果
  • 3.4.2.1 总体效果
  • 3.4.2.2 独立风险优化的效果
  • 3.4.2.3 参数效果
  • 3.5 本节相关的工作
  • 第四章 总结
  • 参考文献
  • 致谢
  • 个人简历、在学期间的研究成果及发表的论文
  • 相关论文文献

    • [1].基于k个标记样本的弱监督学习框架[J]. 软件学报 2020(04)
    • [2].从监督学习到强化学习,四种深度学习方式原理知多少[J]. 机器人产业 2017(04)
    • [3].一种基于弱监督学习的线上借贷反欺诈方法[J]. 通信技术 2020(10)
    • [4].基于有监督学习的店铺类虚假评论检测[J]. 软件导刊 2020(04)
    • [5].弱监督学习语义分割方法综述[J]. 数字通信世界 2020(07)
    • [6].结合自监督学习和生成对抗网络的小样本人脸属性识别[J]. 中国图象图形学报 2020(11)
    • [7].基于有监督学习算法的恶意程序分类识别研究[J]. 网络安全技术与应用 2019(01)
    • [8].妈妈,你让我自豪[J]. 读与写(初中版) 2018(02)
    • [9].基于增强监督学习的微博情感分析研究[J]. 情报杂志 2018(12)
    • [10].一种基于主动学习和多种监督学习的情感分析模型[J]. 中国电子科学研究院学报 2020(02)
    • [11].如何测度央行行长的口头沟通信息——一种基于监督学习的文本分析方法[J]. 统计研究 2019(08)
    • [12].基于自监督学习的河流分割方法[J]. 计算机与现代化 2017(10)
    • [13].一种结合有监督学习的动态主题模型[J]. 北京大学学报(自然科学版) 2015(02)
    • [14].基于监督学习深度自编码器的图像重构[J]. 计算机科学 2018(11)
    • [15].基于弱监督学习的海量网络数据关系抽取[J]. 计算机研究与发展 2013(09)
    • [16].利用监督学习实现IQ失衡状态下的自动调制样式分类[J]. 通信对抗 2014(03)
    • [17].基于自监督学习的病理图像层次分割[J]. 计算机应用 2020(06)
    • [18].基于识别和多重分类的反洗钱系统[J]. 小型微型计算机系统 2019(10)
    • [19].一种基于弱监督学习的声图小目标快速检测方法[J]. 应用声学 2020(03)
    • [20].基于部分监督学习的WEB日志数据预处理[J]. 内蒙古大学学报(自然科学版) 2015(01)
    • [21].基于有监督学习的医古文叙述性术语语义标注[J]. 中文信息学报 2015(02)
    • [22].基于监督学习的非侵入式负荷监测算法比较[J]. 电力自动化设备 2018(12)
    • [23].基于有监督学习的应用识别研究[J]. 广东技术师范学院学报 2013(07)
    • [24].基于监督学习的可信云计算资源拍卖机制研究[J]. 电子与信息学报 2019(05)
    • [25].云环境下基于监督学习的资源调度策略研究与实现[J]. 福建电脑 2014(10)
    • [26].基于自监督学习的越野道路检测算法[J]. 装甲兵工程学院学报 2014(03)
    • [27].大数据时代的企业智库构建研究[J]. 信息系统工程 2018(07)
    • [28].基于弱监督学习的中文百科数据属性抽取[J]. 电子科技大学学报 2014(05)
    • [29].基于弱监督学习的图像语义分割方法综述[J]. 科技创新与应用 2020(08)
    • [30].基于句子级学习改进CNN的短文本分类方法[J]. 计算机工程与设计 2019(01)

    标签:;  ;  ;  ;  ;  

    基于知识型数据的监督学习
    下载Doc文档

    猜你喜欢