技术文档对比学习

对比学习

AI自监督学习
内容

概念

https://mp.weixin.qq.com/s/sUAoNXGvwWa6lecq73pyAg

什么是对比学习

对比学习有的paper中称它为自监督学习[1],有的paper称之为无监督学习[2],自监督学习是无监督学习的一种形式。 上面有三张图,图1和图2都是大家熟知的冰墩墩,图3是雪容融。 对于有监督学习的分类问题,我们希望分类模型识别出来图1和图2都是冰墩墩,图3是雪容融。 但对于无监督的对比学习来说,我们希望模型能识别出图1和图2是一个类别,图3与图1图2不是一个类别。

也就是说,对比学习不需要知道图1图2是冰墩墩以及图3雪容融,即对比学习不需要知道每张图的真实标签,只需要知道到谁与谁相似,谁与谁不相似。假设三张图都通过一个网络,得到三张图片对应的特征f1、f2、f3,我们希望对比学习可以做到在特征空间中把f1和f2拉进,且远离f3。也就是说,对比学习要达到的目标是所有相似的物体在特征空间相邻的区域,而不相似的物体都在不相邻的区域。

上面说到,对比学习需要知道谁与谁相似,谁与谁不相似,那言外之意就是,对比学习不还得需要标签信息去做有监督学习吗?对比学习之所以被认为是一种无监督的训练方式,是因为人们可以使用代理任务(pretext task)来定义谁与谁相似,谁与谁不相似,代理任务通常是人为设定的一些规则,这些规则定义了哪张图与哪张图相似,哪张图与哪张图不相似,从而提供了一个监督信号去训练模型,这就是所谓的自监督。说到这里,同学们应该明白了为什么对比学习可以叫自监督也可以叫无监督了吧。数据增强是代理任务的实现常见手段[1]

Moco论文精读(对比学习文献综述) https://www.bilibili.com/video/BV19S4y1M7hm?vd_source=36d7ac85fed0652f1ac894d4fa5e20f2&spm_id_from=333.788.videopod.sections

对比学习loss

对比学习loss