稀疏优化在机器学习中的若干应用

稀疏优化在机器学习中的若干应用

论文摘要

近年来,利用解的稀疏性和其他内在结构成为众多计算和工程领域中共同关注的问题.稀疏的内含不仅是指“只有很少的非零分量”,它蕴含着“具有一种简单结构”.本文对机器学习中不同问题的稀疏结构进行建模,并在必要时改进经典的稀疏优化算法进行求解.论文的主要工作可概括如下:1.第2章给出了本文在解决不同的机器学习问题中所提出的稀疏优化模型及算法.所提出的稀疏优化模型有同样的抽象结构,即在一个具有某种简单或特定结构的假设空间上极小化某个损失泛函.本文中给出的盒子约束的Lasso模型及块PCA模型均具有这一结构.该章给出了求解盒子约束的Lasso模型的同伦算法及求解块PCA模型的Splitting算法.2.第3章研究了求解盒子约束的Lasso模型的同伦算法的收敛性并检验了该算法的数值性能.该章的工作指出同伦算法收敛性不是显然成立.在无退化指标假设和其它较弱的条件下,该章证明了同伦算法具有有限终止性.另外,该章讨论了退化和循环的问题.当前已有众多算法可求解该模型,但数值实验证明同伦算法具有特别的优势:适于最优解非常稀疏的问题及需要计算整条正则化路径的情形.这是第4章协同过滤数据可预测性问题的计算中所采用的关键技术.3.第4章研究了协同过滤问题中评分数据的可预测性问题.当前协同过滤方面的大部分工作主要研究算法性能的改进.该章指出,受评分数据自身的限制,评分矩阵中有一部分未知评分是难于给出准确预测的.第4章提出了一个新的度量——相关性,以度量用户在某个商品上的评分能被准确预测的可能性.一个用户一商品对的相关性由相关的用户和商品构成的社区所确定.作为相关性度量的应用,提出了基于数据的组合方法(DOC)以应用于推荐系统.4.第5章研究从时间序列基因表达数据中推断基因正则化网络(GRN).由于计算复杂度较大,大部分GRN重建方法仅限于推断较低连通性的单个网络.该章提出了网络和社区识别方法,结合社区结构信息,从基因表达数据中推断多个子网络.其中的块PCA模型,通过第2章给出的Splitting算法,可有效求解网络中的社区结构.5.第6章研究了作为蛋白质鉴别关键步骤的肽段识别问题.序列数据库搜索是当前肽段识别的主流方法.但搜索引擎给出的大量的匹配是不正确的.现有方法大多基于半监督或监督学习框架,充分利用了诱骗PSM的样本及标签信息,但目标PSM样本点自身信息没有被充分利用.该章提出了一个称为FC-Ranker的新的评分方法,给每个目标PSM赋予一个非负权重,反映其匹配正确的可能性.特别地,FC-Ranker通过模糊支持向量机分类模型和所提出的模糊Silhouette指标迭代更新该权重.FC-Ranker在ROC指标、相同FDR水平下鉴别目标PSM的数目等方面的性能表现超过了主流后验数据库搜索方法.

论文目录

  • 摘要
  • Abstract
  • 主要符号和缩写
  • 1 绪论
  • 1.1 研究背景与意义
  • 1.2 研究现状与进展
  • 1.3 本文的研究思路与内容
  • 1.4 预备知识
  • 1.4.1 凸分析相关概念和结果
  • 1.4.2 机器学习中的相关概念
  • 2 用于机器学习的稀疏优化模型及算法
  • 2.1 用于机器学习的稀疏优化模型的抽象结构
  • 2.2 几种稀疏优化模型的变形与推广
  • 2.3 与正则化网络及结构风险最小化的关系
  • 2.4 正则化路径
  • 2.5 求解盒子约束的Lasso模型的同伦算法
  • 2.6 求解块PCA模型的Splitting算法
  • 3 盒子约束的Lasso模型的同伦算法收敛性及其性能
  • 3.1 引言
  • 3.2 收敛性分析
  • 3.3 计算复杂度
  • 3.4 数值实验
  • 3.4.1 基准算法
  • 3.4.1.1 ISTA和FISTA
  • 3.4.1.2 LADM
  • 3.4.2 数值结果
  • 3.5 退化与循环
  • 3.6 本章小结
  • 4 协同过滤数据的可预测性评估
  • 4.1 引言
  • 4.2 协同过滤和线性回归
  • 4.3 社区和相关性
  • 4.4 搜索高质量的社区
  • 4.5 相关性度量在推荐系统中的应用
  • 4.5.1 结合相关性度量的Top-k推荐
  • 4.5.2 基于数据的组合方法
  • 4.6 实验验证
  • 4.6.1 实验设计
  • 4.6.2 相关性的有效性
  • 4.6.3 基于相关性度量Top-1推荐
  • 4.6.4 DOC方法的性能
  • 4.7 相关工作
  • 4.8 讨论
  • 4.9 本章小结
  • 5 从时间序列基因表达数据中推断基因正则化网络
  • 5.1 引言
  • 5.2 推断GRN的一个ODE模型
  • 5.3 NCI方法
  • 5.4 块PCA模型
  • 5.5 实验
  • 5.5.1 测试1.有14个基因的小的测试例子
  • 5.5.2 测试2.有50个基因的GRN
  • 5.5.3 测试3.所提出的块PCA模型的性能
  • 5.5.4 测试4.所提出的Splitting算法的性能
  • 5.6 本章小结
  • 6 基于模糊分类与聚类的肽段识别
  • 6.1 引言
  • 6.2 肽段识别的分类和聚类方法
  • 6.2.1 聚类与Silhouette指标
  • 6.2.2 分类
  • 6.3 FC-Ranker算法
  • 6.3.1 模糊支持向量分类机
  • 6.3.2 模糊Silhouette
  • 6.3.3 样本得分
  • 6.3.4 FC-Ranker算法
  • 6.4 求解较大规模问题
  • 6.4.1 较大规模问题的模糊支持向量分类
  • 6.4.2 较大规模问题中模糊Silhouette的计算
  • 6.5 实验
  • 6.5.1 实验设置
  • 6.5.2 迭代过程中分离度sep的变化
  • 6.5.3 比较鉴别出的目标PSM
  • 6.5.4 ROC曲线
  • 6.6 本章小结
  • 结论与展望
  • 参考文献
  • 附录A 一些辅助结论的证明
  • A.1 命题2.2的证明
  • A.2 命题2.3的证明
  • A.3 Soft-thresholding算子关于盒子约束的一个扩展
  • A.4 命题3.5-3.8的证明
  • 攻读博士学位期间发表学术论文情况
  • 致谢
  • 作者简介
  • 相关论文文献

    • [1].一个轻量级分布式机器学习系统的设计与实现[J]. 计算机工程 2020(01)
    • [2].百度研究院发布2020年十大科技趋势预测[J]. 中国经济周刊 2020(01)
    • [3].浅谈中高年级本科生机器学习知识传授与科研素养培育的三大主线[J]. 教育教学论坛 2020(10)
    • [4].自动化机器学习中的超参调优方法[J]. 中国科学:数学 2020(05)
    • [5].机器学习系统毒化攻击综述[J]. 通信技术 2020(03)
    • [6].机器学习在地球物理测井中的应用进展[J]. 测井技术 2020(02)
    • [7].基于自动机器学习的云平台动态资源调度研究[J]. 科技视界 2020(13)
    • [8].非经典条件下的机器学习方法专题前言[J]. 软件学报 2020(04)
    • [9].“机器学习+量子计算”未来可期[J]. 张江科技评论 2020(03)
    • [10].机器学习在粒子加速器的应用(英文)[J]. 数据与计算发展前沿 2019(06)
    • [11].机器学习如何改变教育[J]. 计算机与网络 2020(12)
    • [12].机器学习诞生新型“研究员”[J]. 机床与液压 2020(14)
    • [13].机器学习如何推动5G网络[J]. 计算机与网络 2020(13)
    • [14].一种机器学习与相变之间的新型映射(英文)[J]. 中国科学技术大学学报 2020(01)
    • [15].机器学习预测金融市场走势[J]. 数据分析与知识发现 2020(08)
    • [16].魏德米勒自动化机器学习解决方案[J]. 石油化工自动化 2020(05)
    • [17].面向数据科学研究生的机器学习课程教学研究[J]. 计算机教育 2020(11)
    • [18].基于机器学习的智慧农业决策系统设计与实现[J]. 信息与电脑(理论版) 2018(24)
    • [19].分布式机器学习平台与算法综述[J]. 计算机科学 2019(03)
    • [20].机器学习在反洗钱领域的应用与发展[J]. 清华金融评论 2019(04)
    • [21].机器学习让计算机更智能[J]. 计算机与网络 2019(14)
    • [22].机器学习在经济学中的应用[J]. 纳税 2019(24)
    • [23].机器学习在网络空间安全研究中的应用分析[J]. 电脑知识与技术 2019(24)
    • [24].基于机器学习的城市生成方法研究[J]. 智能建筑与智慧城市 2019(11)
    • [25].降低机器学习门槛的六大工具[J]. 电脑知识与技术(经验技巧) 2019(10)
    • [26].机器学习在企业级场景中的实践与探讨[J]. 中国建设信息化 2018(03)
    • [27].机器学习——我们该如何与机器竞争[J]. 数字通信世界 2018(01)
    • [28].机器学习的能力范围及其对劳动力的影响[J]. 世界科学 2018(04)
    • [29].机器学习即服务[J]. 网络安全和信息化 2017(10)
    • [30].机器学习作用于信息安全的五大顶级案例[J]. 网络安全和信息化 2018(01)

    标签:;  ;  ;  ;  ;  ;  

    稀疏优化在机器学习中的若干应用
    下载Doc文档

    猜你喜欢