.

自监督学习深度学习的魔法

作者:人民中科研发中心张朝

摘要:在过去的很长时间里,计算机视觉领域依靠大规模的有标注数据集取得了很大的成功,特别是卷积神经网络的应用,使得视觉各子领域实现了跨越式发展,学术界和工业界开始投入大量的研究和应用,一度使大家相信,人工智能的大厦即将建成。然而,最近关于自监督学习(Self-supervisedLearning,SSL)、Transformer、MLP等在学术界的研究成为热点,特别是Transformer和MLP的进击,大有要将监督学习和卷积结构拍死在沙滩上的节奏,作者相信,计算机视觉(CV)领域正在进入新的变革时代。

本文主要聚焦于CV领域自监督学习的相关内容,包含基本概念,与视觉各领域的关系和应用,以及当前的进展和一些思考,关于具体的自监督学习方法原理和技术有太多的文章进行解读,本文暂不涉及,力求从其他角度去观察自监督学习的特点和当前的局限性,分析总结经验,以求能给大家更多创新的想法启发。由于作者本人也有很大的局限性,一些观点不免有偏颇,还望各位大佬批评指正。

一、自监督学习介绍

AAAI会议上,YannLeCun做了自监督学习的报告,表示自监督学习是人工智能的未来。从年底至今,MoCo系列,SimCLR,BYOL等一系列方法等井喷发展,通过无标注数据集达到了有标注数据集上的效果,几乎所有的下游任务都获得收益,使其成为了CV各领域的研究热门。自监督学习的优势,就是可以在无标签的数据上完成训练,而监督学习需要大量的有标签数据,强化学习需要与环境的大量交互尝试,数据为王的时代,此特点也使得大家充分相信自监督学习才是人工智能的发展方向。

自监督学习是与大家熟悉的监督学习和无监督学习的新名词,该类方法最早归类于无监督学习的范畴。关于自监督学习的概念,Paperwithcode[1]给出的定义是,使用无标注数据用自我监督的方式学习一种表示的方法,具体方式是通过学习一个替代任务(pretexttask)的目标函数来获取特征表示。替代任务可以是一个预测类任务、生成式任务、对比学习任务。替代任务的监督信息来源是从数据本身获得的。举个栗子,替代任务可以是图片上色,图片抠图位置预测,视频帧顺序预测等。或者我们从结果反推方法,对于自监督来说,数据本身是没有标签的,我们需要通过自行设计任务来确定数据的标签。例如下图[2]中把图片中扣出9个块,让模型预测每个块的位置,对每个块自动构建标签的过程就是生成标签的过程,预测位置的工作就是替代任务。

图1图像块相对位置预测

近来热门且效果出色的自监督模型MoCo系列、SimCLR等,除去BYOL和SimSiam舍弃了负样本数据,基本都是采用正负样本对间对比的方式来构建,BYOL和SimSiam也构建了两个网络间的对比形式,都属于对比学习(ContrastiveLearning)任务的范畴,可以说,当前的自监督学习的火热就是对比学习自监督方法的火热。其基本原理,是采用Siamese形式的网络结构,通过输入正负样本对数据,计算网络两个分支的输出的损失,以使网络能够学习到可以将相似样本拉近,不相似样本拉远的特征。自动构建标签的过程,就是常用的各种数据增强方法,如下图[3],原始图采用随机裁剪、颜色变换、模糊等方式构造相似样本对,而不同的原图或者增强后图像即是非相似样本对。训练得到的对比学习网络,在迁移到下游任务(分类、检测、分割)等数据集时,表现达到了可以媲美监督学习模型的效果。

图2SimCLR使用的数据增强方法

基于对比的自监督方法发展史如下图所示,选取了几个受


转载请注明:http://www.dgchongjing.com/szshwh/817569.html

  • 上一篇文章:
  • 下一篇文章: