CLIP
论文地址:Learning Transferable Visual Models From Natural Language Supervision (ICML 2021)
特点
- 利用自然语言的监督信号,将文字的语义和图片的语义联系在了一起,是一个多模态的模型
- 迁移效果非常好,能进行zero-shot推理,不需要在新的domain上重新训练
训练
- 模型输入是text-image pair(text指的是句子),形成一个$n \times n$矩阵,很自然地可以进行自监督的对比学习,其中对角线上的是正样本(即文本和图像是匹配的),其他位置上是负样本
- 需要大量的text-image pair数据
推理
- 对于ImageNet的数据集,将分类标签通过prompt template转换成一个句子,通过一个预训练好的text encoder转化成文本特征。prompt的模型中也有很多trick,有两种方式,prompt engineering & prompt ensemble
- 对输入的图像,通过image encoder得到特征,再和上一步得到的所有文本特征进行cosine similarity的计算和比对,找到最相似的那个特征
后续工作
- StyleCLIP
- CLIPDraw
- 目标检测,open-vocabulary detector
- 视频检索,每一帧和文本做对比