论文摘要
本文研究基于知识型数据的学习问题。传统机器学习问题主要依赖于带标注的训练样本来完成建模与预测。但是一个公认的问题是标注数据是非常费时与费力的,已经成为机器学习继续发展的一个很大的瓶颈。机器学习的一个很重要的应用就是网页,文本数据的分类。为了能够对网页数据进行高质量的分类,需要大量的文本训练集。本文注意到一个新的趋势,就是随着互联网的飞速发展和广泛应用,越来越多的服务和应用出现在互联网上。这些数据不仅仅是平面的文本数据,同时带有类标,结构等等格外的信息。考虑到任何人都可以很容易的得到大量的互联网数据,本文解决的的问题是,通过互联网知识对机器学习的过程进行监督,从而减少机器学习算法,特别是文本分类算法对人工标注数据的依赖。为了达到这样的目的,本文从两个角度来解决问题。第一是设计知识型数据的获取算法,第二是设计知识型数据进行监督学习的算法。对于知识型数据获取的研究算法,本文研究如何将平面的,没有任何额外信息的网页数据进行自动标注,从而使得其成为知识型数据。本文的研究思路是依照网络上大量存在的层次结构,对网页数据进行自动分类。研究的难点是,待选择的类的数量非常庞大,传统的机器学习和分类算法无法取得很好的效果。与此同时,基于知识型的算法要求很高的效率,对于算法的设计有很大的限制。本文在这方面取得了一定的突破。本文注意到朴素贝叶斯分类器具有速度快,易实现,通用性强等在当前问题中非常需要的特性。虽然传统朴素贝叶斯分类器的效果非常差,通过深入挖掘朴素贝叶斯分类器在大规模类空间的特性,找到了朴素贝叶斯分类器存在的两个严重问题,通过修正这些问题,使得朴素贝叶斯分类器的效果得到了大幅度的提升。从而能够提供可靠的知识型数据。对于设计知识型数据进行监督学习的算法,本文研究如何利用带有类标信息的知识型数据,来取代文档分类中的训练集,达到相当于有训练集的学习效果。研究的难点是互联网知识型数据涵盖大量的语义信息,而待分类的文本的语义信息比较集中。为了克服这样一个差距,本文设计了一个两阶段风险最优化算法。在第一阶段中,该算法生成对于待分类文本最相关的知识型数据。在第二阶段,知识型数据与待分类数据进行深度交互,从而挖掘出知识型数据中对于学习任务有用的信息。整个学习的过程是在风险最优化框架下,利用概率模型进行建模。该算法在实验中取得了较好的结果。不仅大大高于对比试验,同时能够取的和使用标注数据集的分类算法相近的表现效果。
论文目录
相关论文文献
- [1].基于k个标记样本的弱监督学习框架[J]. 软件学报 2020(04)
- [2].从监督学习到强化学习,四种深度学习方式原理知多少[J]. 机器人产业 2017(04)
- [3].一种基于弱监督学习的线上借贷反欺诈方法[J]. 通信技术 2020(10)
- [4].基于有监督学习的店铺类虚假评论检测[J]. 软件导刊 2020(04)
- [5].弱监督学习语义分割方法综述[J]. 数字通信世界 2020(07)
- [6].结合自监督学习和生成对抗网络的小样本人脸属性识别[J]. 中国图象图形学报 2020(11)
- [7].基于有监督学习算法的恶意程序分类识别研究[J]. 网络安全技术与应用 2019(01)
- [8].妈妈,你让我自豪[J]. 读与写(初中版) 2018(02)
- [9].基于增强监督学习的微博情感分析研究[J]. 情报杂志 2018(12)
- [10].一种基于主动学习和多种监督学习的情感分析模型[J]. 中国电子科学研究院学报 2020(02)
- [11].如何测度央行行长的口头沟通信息——一种基于监督学习的文本分析方法[J]. 统计研究 2019(08)
- [12].基于自监督学习的河流分割方法[J]. 计算机与现代化 2017(10)
- [13].一种结合有监督学习的动态主题模型[J]. 北京大学学报(自然科学版) 2015(02)
- [14].基于监督学习深度自编码器的图像重构[J]. 计算机科学 2018(11)
- [15].基于弱监督学习的海量网络数据关系抽取[J]. 计算机研究与发展 2013(09)
- [16].利用监督学习实现IQ失衡状态下的自动调制样式分类[J]. 通信对抗 2014(03)
- [17].基于自监督学习的病理图像层次分割[J]. 计算机应用 2020(06)
- [18].基于识别和多重分类的反洗钱系统[J]. 小型微型计算机系统 2019(10)
- [19].一种基于弱监督学习的声图小目标快速检测方法[J]. 应用声学 2020(03)
- [20].基于部分监督学习的WEB日志数据预处理[J]. 内蒙古大学学报(自然科学版) 2015(01)
- [21].基于有监督学习的医古文叙述性术语语义标注[J]. 中文信息学报 2015(02)
- [22].基于监督学习的非侵入式负荷监测算法比较[J]. 电力自动化设备 2018(12)
- [23].基于有监督学习的应用识别研究[J]. 广东技术师范学院学报 2013(07)
- [24].基于监督学习的可信云计算资源拍卖机制研究[J]. 电子与信息学报 2019(05)
- [25].云环境下基于监督学习的资源调度策略研究与实现[J]. 福建电脑 2014(10)
- [26].基于自监督学习的越野道路检测算法[J]. 装甲兵工程学院学报 2014(03)
- [27].大数据时代的企业智库构建研究[J]. 信息系统工程 2018(07)
- [28].基于弱监督学习的中文百科数据属性抽取[J]. 电子科技大学学报 2014(05)
- [29].基于弱监督学习的图像语义分割方法综述[J]. 科技创新与应用 2020(08)
- [30].基于句子级学习改进CNN的短文本分类方法[J]. 计算机工程与设计 2019(01)
标签:知识型数据论文; 机器学习论文; 文本分类论文; 朴素贝叶斯分类器论文; 风险最小化框架论文;