样本标记论文-邱维蓉,吴帮玉,贾骏雄

样本标记论文-邱维蓉,吴帮玉,贾骏雄

导读:本文包含了样本标记论文开题报告文献综述及选题提纲参考文献,主要关键词:黄土滑坡,PU-Learning,半监督学习,Bagging

样本标记论文文献综述

邱维蓉,吴帮玉,贾骏雄[1](2019)在《基于正例和未标记样本的半监督集成学习方法在滑坡易发性预测中的应用》一文中研究指出本文利用甘肃省平凉市灵台县的历史滑坡数据,并结合区域地理因素数据中缺乏已经证实的非灾点数据的特点,将所选区域的203个历史滑坡点作为正例样本点,从区域内180万个栅格单元中随机选择10万个点作为未标记的样本点,使用基于Bagging集成的半监督学习方法 Positive-Unlabeled Learning从正例样本点和未标记的样本点中学习模型,对区域内所有点的滑坡易发性指数进行预测,利用自然分段法将概率区间分为5个等级,绘制滑坡易发性区划图,并以表格的形式统计出区域内180万栅格样本点和203个滑坡栅格样本点在5个等级中出现的数量和频率以及两者的频率比。结果表明PU-Bagging模型在选定区域内的滑坡预测正确率为87.193%,证明模型拟合程度良好。(本文来源于《中国石油学会2019年物探技术研讨会论文集》期刊2019-09-09)

迟恩惠,李俊,李鸿雁,黄帆,米福贵[2](2019)在《蒙古冰草SSR遗传完整性分析中适宜样本量及标记数量筛选》一文中研究指出以蒙古冰草2个自然群体为实验材料,通过对15对微卫星分子标记DNA扩增效果的比对分析,探讨遗传完整性分析研究中所需的最适宜样本量。实验设置9个样本量梯度,对不同样本量的等位基因数、杂合度等遗传参数的变化趋势分析。结果表明,样本量的大小与等位基因数(Na)、Nei's遗传多样性指数(H)呈显着相关。两份材料分别在样本量达到60和50时,各遗传参数变化较小,拟合曲线趋于平稳。综合分析表明,蒙古冰草自然群体的遗传完整性分析取样在60株以上。(本文来源于《中国草地学报》期刊2019年04期)

张乔榆,蔡秋娜,刘思捷,闫斌杰,苏炳洪[3](2019)在《基于样本扩展和特征标记的节假日短期负荷预测》一文中研究指出针对目前节假日负荷预测中有效样本缺乏的问题,基于休息日与节假日负荷特性的相似性分析,提出一种扩展样本策略,以丰富基础样本数据量;探讨了对负荷样本节假日特征属性的标记方式,并构建了一种有效的相关因素矢量;最后结合支持向量机(support vector machine,SVM)算法,对节假日负荷进行预测,以提高其预测结果的精度。算例结果表明,与传统方法相比,所提方法能够有效提高负荷预测精度,可推广应用于实践中。(本文来源于《广东电力》期刊2019年07期)

张鹏飞,董敏周,端军红[4](2019)在《基于集成GMM聚类的少标记样本图像分类》一文中研究指出为了提高卷积神经网络训练的分类器分类准确率,往往需要大量的已标记数据,但有时已标记数据并不容易获得。针对少标记样本图像分类问题,提出基于集成GMM聚类与标签传递思想的解决方案,通过一定的规则给未标记数据赋予标签,将未标记数据转换成已标记数据用于模型的训练。在手写数字识别数据集上进行实验,结果表明新算法在少标记样本的情况下,结合集成GMM聚类的方法比只采用有标记样本训练得到的模型分类准确率有着较大提高,验证了该算法的有效性。(本文来源于《西北工业大学学报》期刊2019年03期)

唐莉[5](2019)在《基于样本差异性分析的多标记特征选择算法研究》一文中研究指出大数据时代,基于数据挖掘技术的医疗诊断对现在医学的医疗辅助中有着重要的作用。医疗诊断对于患者的病例、特征、患病类别以及严重性能够快速的进行判断,且对于实时性以及准确性具有较高的要求。目前,大数据分析领域中特征排序和选择算法已经应用到了很多领域,本文主要针对数据所呈现特征空间高维性、标记空间多标记性等特点,提出了对于多标记数据集中判断样本所属类别具有重要作用的特征。因此,通过深入分析已有数据的固有特点,基于粒计算思维,从样本粒化和特征粒化角度出发寻求对不同类别样本具有差异性的特征。在此基础上,利用已选特征进行分类建模,以提高数据的准确性和泛化能力。本文以信息粒化为基础,分别从样本粒化和特征粒化进行以下几个方面的研究:(1)因多标记数据往往呈现高维小样本特点,使得分类建模中易出现过拟合问题。本文根据聚类技术对数据集中的特征进行粒化,然后结合大间隔的相关知识,提出了一种基于样本差异性的多标记特征选择算法。实验结果表明该模型能有效地提高分类精度,且降低特征选择过程中的计算整体代价。(2)为了能够很好地度量特征间的相关性以及特征与标记间的相似性,以利于选出质量较高的特征,本文提出了多标记学习环境下邻域差异因子概念,邻域差异因子不仅能够用来衡量特征子集的区分能力,而且能有效地区分样本之间的差异性。从特征子集的紧凑性,分类精度,以及分类精度对着特征数目的变化等叁个方面验证了所提算法的有效性。(本文来源于《闽南师范大学》期刊2019-06-01)

陈东东[6](2019)在《无标记样本辅助的深度学习技术研究》一文中研究指出深度学习技术已广泛应用于诸多领域,训练深度模型通常需要大量的标记数据,然而在很多实际应用中获取标记信息需要耗费人力物力。因此,如何利用无标记数据提升深度学习的性能,是一个亟待解决的问题。本文针对此问题进行了研究,取得了如下创新成果:1.对无标记样本辅助提升深度学习技术的监督学习性能进行了研究,提出了一种将半监督学习Tri-training机制融入深度学习模型的方法TDNN(Tri-training Deep Neural Network)。实验结果表明,本文方法能够有效地提升深度学习的监督学习性能。2.对无标记样本辅助提升深度学习技术的迁移学习性能进行了研究,提出了一种联合优化源域/目标域的语义匹配及目标域损失函数的方法SDA-TCL(Source Domain Alignment and Target Classifier Learning)。实验结果表明,本文方法能够有效地提升深度学习的迁移学习性能。3.对无标记样本辅助提升深度学习技术的度量学习性能进行了研究,提出了一种联合优化噪声条件下输出度量的稳定性与监督信息损失函数的方法SDVN(Stable Deep Verification Network)。实验结果表明,本文方法能够有效地提升深度学习的度量学习性能。(本文来源于《南京大学》期刊2019-05-24)

梅长卿[7](2019)在《基于未标记样本信息的蛋白质相互作用位点半监督预测》一文中研究指出蛋白质相互作用位点的识别在药物设计方面具有不可替代的意义。然而在实际情况下,由于目前只有小部分的蛋白质相互作用能够被实验方法鉴别出来,所以蛋白质序列上的大多数位点不能被定义为界面位点或非界面位点,这将导致蛋白质相互作用位点的预测缺乏准确性和泛化能力。本文主要通过未标记出来的蛋白质位点信息来对相互作用位点进行预测。在数据处理部分,首先删减冗余的蛋白质链,通过预处理得到91条蛋白质链用于实验。接着对残基进行定义,并基于氨基酸的进化保守性,从HSSP数据库与Consurf Server中提取了五种特征:残基空间序列谱、残基序列信息熵与相对熵、残基序列保守权重以及残基进化速率。将这五种保守性特征加以融合并重新编码,得到的数据集将用于之后的实验。在位点预测部分,本文充分利用了大量未标记样本,并提出了叁种半监督支持向量机模型对蛋白质相互作用位点进行预测。首先,结合标签均值和自训练思想,提出了基于多核学习的标签均值自训练半监督支持向量机(Means3vm-mkl)和基于迭代优化的标签均值自训练半监督支持向量机(Means3vm-iter)。然后我们对上述模型进行了优化,使用一种安全的半监督支持向量机(S4VM)来防止性能下降。从最终的预测结果可以得出,使用未标记样本极大提高了预测的准确性,相比于只利用标记样本的分类模型在准确率上提高了12%。叁种半监督SVM模型都能实现对相互作用位点的预测,其中S4VM表现最佳,正确率达到70.7%,灵敏度以及特异度分别为62.67%,78.72%。相较于传统的实验以及计算方法而言,分类效果得到较大提升。(本文来源于《安徽工业大学》期刊2019-05-15)

唐莉,王晨曦,胡敏杰,林耀进,郑文彬[8](2019)在《基于样本差异性的多标记特征选择算法》一文中研究指出在多标记学习中,特征空间的高维性是多标记学习研究的主要问题。文章通过聚类构建由代表性样本组成新多标记数据,定义了多标记决策系统中样本的分类间隔及样本的差异性概念,在此基础上定义了特征权重,提出一种基于样本差异性的多标记特征选择算法,并用4个指标对4个多标记数据集进行实验评价,对比一些当前流行的特征选择算法,验证了本文所提算法的有效性。(本文来源于《安庆师范大学学报(自然科学版)》期刊2019年01期)

陈霞[9](2019)在《基于样本和标记建模的弱监督分类方法研究》一文中研究指出监督式分类技术基于强监督假设,通过学习大量的、具有单一且明确的真值标记的样本来训练分类模型。尽管现有的监督式分类技术已经取得了巨大的成功,但由于数据标注过程需要耗费大量的人力和物力,且受外部环境、问题特性以及标注者自身的原因等多方面因素的制约,很多数据获取到的往往是少量的、不准确的标记。此外,真实世界中的对象普遍具有多义性,即每个样本可以同时拥有多个标记。在多义性场景下,指数规模的输出空间使得学习系统需要更加充裕的监督信息。传统的监督式分类框架在不足够的监督(即不足够的有标记样本)、不准确的监督(即不准确的标记信息)及多义的监督(即每个样本可以同时拥有多个标记)的弱监督场景下难以取得较好的效果。因此,研究弱监督场景下的分类算法具有极大的现实意义。本文围绕上述叁种弱监督场景,通过分析现有的弱监督方法的不足,分别基于半监学习技术、多标记主动学习技术与偏多标记学习技术展开研究,完成的主要工作如下:1、基于半监督学习技术解决不足够的监督的问题:由于真实世界中的样本并不总是均匀分布的,两个靠近决策边界的、拥有不同标记的样本可能会相距很近,因此很容易被错误分类。针对这一问题,我们提出一种基于聚类调整相似度的半监督分类方法SSC-CAS。该方法首先利用聚类算法探索所有未标记样本与有标记样本的结构信息,然后根据样本所属的聚类簇之间的相似度调整样本之间的相似度,使得处于决策边界处且处于不同聚类结构的样本间的相似度减小。最后,SSC-CAS在这个新构造的图上执行基于图的半监督分类。实验结果证明了这种构图方式的有效性,且SSC-CAS获得了较相关对比方法更好的分类表现。此外,大部分现有的半监督分类方法都同等对待每个样本。事实上,越靠近决策边界的样本应该获得更多的关注。基于上述情况,我们提出一种新的基于样本加权的半监督分类方法WS3C。该方法首先基于多次聚类结果衡量样本的难聚类程度与样本间的相似度。越靠近决策边界的样本越难聚类,应拥有更大的权重。然后,WS3C利用样本的难聚类程度对样本进行加权并结合样本间的相似度构建了一个流形正则化框架来预测未标记样本的标记。实验分析证明了这种样本加权方式的有效性,且WS3C具有较相关对比方法更好的分类表现。2、基于多标记主动学习解决多义的监督下不足够的监督的问题:在多义的监督场景下,样本的标注过程更加困难且代价昂贵。一个样本是否与一个标记相关取决于该样本是否包含与该标记相关的特征信息。然而,当前的主动学习方法查询一个样本标记对的相关性时,要求标注者详细审查完整个样本。事实上,对于一个相关的样本标记对,标注者可以更容易地仅通过审查待标注样本的关键的子样本来审查所查询的样本标记对的相关性,减少标注代价。基于上述情况,本文提出了基于子样本标记对查询的多标记主动学习方法CMAL。该方法首先利用不确定性、标记相关性以及标记空间稀疏性选择出最有价值的样本标记对,然后基于所选择的样本标记对迭代地选择出最可能相关的子样本标记对给专家标注。实验结果表明,在同样的成本条件下,CMAL能够获得较相关对比方法更好的分类表现。3、基于偏多标记学习解决多义的监督下不准确的监督的问题:在多义的监督的场景下,样本的标注过程更加困难,因此更容易出现噪声标记。显然,噪声标记的存在会影响分类器的分类表现。然而,当前的多标记学习方法假设已获取的标记是无噪的,研究多义的监督下不准确的监督的工作还很少。基于上述情况,本文提出一种基于矩阵分解的多标记噪声标记识别方法MF-INL。该方法首先利用矩阵分解技术分解原始的包含噪声标记的样本标记关联矩阵为两个低维的矩阵,同时保持样本在低维空间的结构信息与标记在低维空间的相关性。然后,MF-INL利用分解的两个矩阵重构样本标记关联矩阵。在该重构的关联矩阵中,关联值更低的样本标记关联更可能是噪声关联,即该标记更可能为该样本的噪声标记。实验结果证明了MF-INL识别噪声标记的有效性。为进一步提高噪声标记识别的表现与同时实现噪声标记场景下的分类器训练,本文提出一种特征诱导的偏多标记学习方法fPML。该方法通过将样本特征与标记映射到同一个低维的语义空间学习原始样本标记关联矩阵的低秩逼近,估计样本标记关联置信度,进一步识别噪声标记。特别地,fPML在识别噪声标记的同时,利用估计的样本标记关联置信度训练一个投影矩阵,将样本特征映射到标记空间,实现对未标记样本的标记预测。实验结果表明fPML较对比方法能够更有效地识别噪声标记,且在未标记样本标记预测上也获得了较对比方法更好的表现。(本文来源于《西南大学》期刊2019-03-25)

马宏亮,万建武,王洪元[10](2019)在《一种嵌入样本流形结构与标记相关性的多标记降维算法》一文中研究指出现有的多标记降维算法常通过学习标记相关性构建样本间的相似关系,进而提高学习系统的性能.然而,在实际应用中,样本的标记信息可能存在噪声,且部分标记信息可能缺失,因此由样本的标记信息学得的标记相关性可能不准确,无法有效挖掘样本间的相似关系.为了解决该问题,从样本的特征空间与标记空间两个方面构建样本间的相似关系.在利用标记空间学习标记相关性的同时,通过引入特征空间中的概率超图模型,提出一种嵌入样本流形结构与标记相关性的多标记降维算法.在十个多标记数据集和六种评价准则上的实验结果证明了所提算法的有效性.(本文来源于《南京大学学报(自然科学)》期刊2019年01期)

样本标记论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

以蒙古冰草2个自然群体为实验材料,通过对15对微卫星分子标记DNA扩增效果的比对分析,探讨遗传完整性分析研究中所需的最适宜样本量。实验设置9个样本量梯度,对不同样本量的等位基因数、杂合度等遗传参数的变化趋势分析。结果表明,样本量的大小与等位基因数(Na)、Nei's遗传多样性指数(H)呈显着相关。两份材料分别在样本量达到60和50时,各遗传参数变化较小,拟合曲线趋于平稳。综合分析表明,蒙古冰草自然群体的遗传完整性分析取样在60株以上。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

样本标记论文参考文献

[1].邱维蓉,吴帮玉,贾骏雄.基于正例和未标记样本的半监督集成学习方法在滑坡易发性预测中的应用[C].中国石油学会2019年物探技术研讨会论文集.2019

[2].迟恩惠,李俊,李鸿雁,黄帆,米福贵.蒙古冰草SSR遗传完整性分析中适宜样本量及标记数量筛选[J].中国草地学报.2019

[3].张乔榆,蔡秋娜,刘思捷,闫斌杰,苏炳洪.基于样本扩展和特征标记的节假日短期负荷预测[J].广东电力.2019

[4].张鹏飞,董敏周,端军红.基于集成GMM聚类的少标记样本图像分类[J].西北工业大学学报.2019

[5].唐莉.基于样本差异性分析的多标记特征选择算法研究[D].闽南师范大学.2019

[6].陈东东.无标记样本辅助的深度学习技术研究[D].南京大学.2019

[7].梅长卿.基于未标记样本信息的蛋白质相互作用位点半监督预测[D].安徽工业大学.2019

[8].唐莉,王晨曦,胡敏杰,林耀进,郑文彬.基于样本差异性的多标记特征选择算法[J].安庆师范大学学报(自然科学版).2019

[9].陈霞.基于样本和标记建模的弱监督分类方法研究[D].西南大学.2019

[10].马宏亮,万建武,王洪元.一种嵌入样本流形结构与标记相关性的多标记降维算法[J].南京大学学报(自然科学).2019

标签:;  ;  ;  ;  

样本标记论文-邱维蓉,吴帮玉,贾骏雄
下载Doc文档

猜你喜欢