当前位置: 首页 > ai >正文

多模态知识图谱与大模型 图解合集(干中学ing)

CLIP: 2021

(1)Contrastive pre - training(对比预训练)

  • 输入:左侧上方输入文本数据(如“Pepper the aussie pup” ),左侧下方输入图像数据(如一张小狗的图片 )。
  • 编码器:文本数据进入“Text Encoder”(文本编码器),图像数据进入“Image Encoder”(图像编码器) 。文本编码器和图像编码器可以采用不同架构,比如文本编码器可以是基于Transformer的结构,图像编码器可以是ResNet或Vision Transformer等。
  • 特征提取与对比学习
    • 文本编码器将文本编码为特征向量,得到T1,T2,T3,…,TNT1​,T2​,T3​,…,TN​ ,这里NN表示文本数量。
    • 图像编码器将图像编码为特征向量,得到I1,I2,I3,…,INI1​,I2​,I3​,…,IN​ ,这里NN表示图像数量。
    • 随后计算图像特征向量和文本特征向量之间的点积(如图中的I1⋅T1I1​⋅T1​ ,I1⋅T2I1​⋅T2​ 等 )。在对比学习中,目标是让正确配对(即原本对应的图像和文本 )的特征向量点积尽可能大,错误配对的点积尽可能小。通过这种方式,模型学习到图像和文本之间的关联表示。
http://www.xdnf.cn/news/2742.html

相关文章:

  • 【机器学习】​碳化硅器件剩余使用寿命稀疏数据深度学习预测
  • matplotlib
  • 阿里云服务器(ECS)基础指南:从入门到核心场景解析​
  • 【网络入侵检测】基于源码分析Suricata的统计模块
  • python裁剪小说封面标题
  • 防洪评价报告编制方法及洪水建模实践技术-防洪评价报告编制方法及洪水建模实践技术
  • 搭建spark yarn模式集群
  • 为什么使用ThreadLocal后要调用remove()方法呢?
  • 9.5/Q1,GBD数据库最新高分文章解读
  • 机器学习-08-时序数据分析预测
  • 在移动应用开发中,如何优化JavaScript的性能
  • 【行业特化篇2】金融行业简历特化指南:合规性要求与风险控制能力的艺术化呈现
  • 用Python做有趣的AI项目 6:AI音乐生成器(LSTM Melody Generator)
  • 在 cmd shell 中执行 metasploit vbs payload
  • OpenAvatarChat要解决UnicodeDecodeError
  • 一文掌握Matplotlib绘图
  • PyQt6基础_QThread
  • 亚马逊如何分析竞品
  • 网工笔记-网络层
  • 软件工程(一):黑盒测试与白盒测试
  • 【浙江大学DeepSeek公开课】人类经验与AI算法的镜像之旅
  • 考研系列-计算机组成原理第七章、输入/输出系统
  • 解锁健康密码:养生的多维智慧
  • 【手册】Linux服务器应急排查实战指南
  • 《Learning Langchain》阅读笔记11-RAG(7)索引优化:RAPTOR方法和ColBERT方法
  • C++:BST、AVL、红黑树
  • 惠普P1108打印机信息
  • gre over ipsec (神州数码)
  • 巧记英语四级单词 Unit6-中【晓艳老师版】
  • SpringBoot启动后自动执行方法的各种方式-笔记