【LLM多模态】LLava模型架构和训练过程 | CLIP模型

CSDN头条 1年前 (2024) csdnhot

27 0 0

note

CLIP使用了对比学习的方法，即通过正样本（匹配的图像-文本对）和负样本（不匹配的图像-文本对）来训练模型。在训练过程中，模型会尝试最大化正样本对的相似度（比如通过计算余弦相似度），同时最小化负样本对的相似度。

CLIP模型在zero-shot学习中表现强大，可以直接用于zero-shot推理，比如将猫的图片emb后，将猪狗猫等类的文本描述也分别emb，计算图片和类别emb之间的相似度，从而进行分类。
CLIP-ViT-L/14模型的14表示每个patch的分辨率为14X14，比如在224x224像素的图像上，总共有(224 / 14) x (224 / 14) = 16 x 16 = 256个patch。

LLaVA的模型结构非常简单，就是CLIP+LLM(Vicuna，LLaMA结构)，利用Vison Encoder将图片转换为[N=1, grid_H x grid_W, hidden_dim]的feature map，然后接一个插值层Projection W，将图像特征和文本特征进行维度对齐。经过Projection后，得到[N=1, grid_H x......

阅读原文

版权声明：csdnhot 发表于 2024-05-26 22:04:51。
转载请注明：【LLM多模态】LLava模型架构和训练过程 | CLIP模型 | 程序员导航网

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

【LLM多模态】LLava模型架构和训练过程 | CLIP模型

卷积神经网络（CNN）详细介绍及其原理详解

[Code with me]开发背单词app | Flutter框架 | 无需任何前置知识教程 #2

暂无评论

【LLM多模态】LLava模型架构和训练过程 | CLIP模型

卷积神经网络（CNN）详细介绍及其原理详解

[Code with me]开发背单词app | Flutter框架 | 无需任何前置知识教程 #2

暂无评论

收藏至：