CLIP

论文地址:Learning Transferable Visual Models From Natural Language Supervision (ICML 2021)

特点

  • 利用自然语言的监督信号,将文字的语义和图片的语义联系在了一起,是一个多模态的模型
  • 迁移效果非常好,能进行zero-shot推理,不需要在新的domain上重新训练

训练

  • 模型输入是text-image pair(text指的是句子),形成一个$n \times n$矩阵,很自然地可以进行自监督的对比学习,其中对角线上的是正样本(即文本和图像是匹配的),其他位置上是负样本
  • 需要大量的text-image pair数据

推理

  • 对于ImageNet的数据集,将分类标签通过prompt template转换成一个句子,通过一个预训练好的text encoder转化成文本特征。prompt的模型中也有很多trick,有两种方式,prompt engineering & prompt ensemble
  • 对输入的图像,通过image encoder得到特征,再和上一步得到的所有文本特征进行cosine similarity的计算和比对,找到最相似的那个特征

Alt text

后续工作

  • StyleCLIP
  • CLIPDraw
  • 目标检测,open-vocabulary detector
  • 视频检索,每一帧和文本做对比

CV

Classic Deep Network «
Prev «
» NeRF Baking: SNeRG, Instant-NGP and MERF
» Next