推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

CLIP(跨模态对比学习)技术概述

更新时间:2026-02-28 13:08:31 大小:15K 上传用户:潇潇江南查看TA发布的资源 标签:CLIP 下载积分:2分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

CLIP(Contrastive Language-Image Pretraining)是由OpenAI于2021年提出的跨模态对比学习模型,旨在通过对比学习实现文本与图像模态的语义对齐。其核心原理是通过构建大规模图文对数据集,训练模型将图像和文本映射到同一高维特征空间,使语义相似的跨模态数据在空间中距离更近,反之则距离更远。

1.图像编码器:采用改进的ResNet或Vision Transformer(ViT)架构,将输入图像转换为512维特征向量。其中ViT版本通过将图像分割为16×16像素的补丁序列,使用自注意力机制提取全局特征。

2.文本编码器:基于Transformer架构,将分词后的文本序列(如"a photo of a cat")编码为512维特征向量,支持最长77个token的文本输入。


部分文件列表

文件名 大小
1772255068CLIP(跨模态对比学习)技术概述.docx 15K

【关注B站账户领20积分】

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载