当前位置: 首页 > ai >正文

视觉/深度学习/机器学习相关面经总结(2)(持续更新)

目录

    • 1、跨模态对齐的方案
    • 2、位置编码方式
      • 1. **正弦和余弦位置编码(Sinusoidal Positional Encoding)**
      • 2. **可学习的位置编码(Learnable Positional Encoding)**
      • 3. **相对位置编码(Relative Positional Encoding)**
      • 4. **线性位置编码(Linear Positional Encoding)**
      • 5. **一热编码(One-hot Encoding)**
      • 6. **动态位置编码(Dynamic Positional Encoding)**
    • 3、

1、跨模态对齐的方案

  • 嵌入空间对齐
    来自不同模态的数据(如图像和文本)被映射到一个共享的嵌入空间,例如CLIP通过对图像和文本进行对比学习,使得图像和文本的嵌入向量在同一空间中更具可比性,从而实现跨模态对齐。
  • 多模态注意力机制
    注意力机制,模型能够聚焦于不同模态中最相关的部分,并对其进行对齐融合。
    Q(查询):表示我们希望学习到的特征。
    K, V(键值):表示我们用来计算注意力的特征。
  • 。。。。。

2、位置编码方式

1. 正弦和余弦位置编码(Sinusoidal Positional Encoding)

  • 概述:由Vaswani等人在Transformer模型中提出,正弦和余弦位置编码通过不同频率的正弦和余弦函数对序列中的每个位置进行编码。
  • 计算方式:对每个位置i和维度2k,使用正弦函数和余弦函数进行编码:
    在这里插入图片描述
  • 优点:位置编码是固定的,不依赖于训练数据,可以适用于任意长度的序列。编码的顺序信息是通过周期性函数显式表达的。

2. 可学习的位置编码(Learnable Positional Encoding)

  • 概述:可学习的位置编码将位置编码作为可训练的参数直接嵌入到模型中。这些编码通过反向传播进行优化,随着训练的进行不断调整。
  • 计算方式:每个位置对应一个向量,和模型中的其他权重一样,这些位置向量通过训练进行优化。
  • 优点:通过学习获得的位置编码可以根据具体任务进行优化,能够更好地适应特定任务的需求。

3. 相对位置编码(Relative Positional Encoding)

  • 概述:相对位置编码通过编码序列中元素之间的相对位置,而不是绝对位置。它在一些Transformer变种(如Transformer-XL)中被使用,旨在改进长序列建模。
  • 计算方式:对于序列中的任意两个位置 ( i ) 和 ( j ),编码表示它们之间的相对位置 ( |i - j| )。
  • 优点:适合处理长序列,尤其是在序列长度较大时,相对位置编码比绝对位置编码表现更好。

4. 线性位置编码(Linear Positional Encoding)

  • 概述:线性位置编码是一种简单的编码方法,通过线性增加的位置向量来表达位置关系。
  • 计算方式:位置编码可以简单地通过位置的线性映射(例如直接使用位置作为编码向量)来完成。
  • 优点:实现简单,但通常效果不如其他复杂的编码方式。

5. 一热编码(One-hot Encoding)

  • 概述:对于每个位置,使用一个独热向量来表示该位置的存在。这种编码方式是最简单的一种,但通常只用于短序列或其他简单任务。
  • 计算方式:每个位置有一个对应的独热向量,表示该位置的唯一性。
  • 优点:简单直观,但不保留位置信息的连贯性和顺序。

6. 动态位置编码(Dynamic Positional Encoding)

  • 概述:与固定位置编码不同,动态位置编码基于输入的序列动态计算位置编码,通常结合其他特征(如上下文信息)。
  • 优点:更加灵活,可以根据具体输入序列的上下文动态调整。

3、

http://www.xdnf.cn/news/2311.html

相关文章:

  • vscode vue 的插件点击组件不能跳转到文件问题解决
  • LeetCode13_罗马数字转整数
  • OpenVLA:大语言模型用于机器人操控的经典开源作品
  • 界面打印和重定向同时实现
  • 多级缓存架构设计与实践经验
  • 决策树随机深林
  • Mysql从入门到精通day6————时间和日期函数精讲
  • PDF嵌入隐藏的文字
  • [ACTF2020 新生赛]Upload
  • DeepSeek智能时空数据分析(五):基于区域人口数量绘制地图散点-大模型搜集数据NL2SQL加工数据
  • Python对比两张CAD图并标记差异的解决方案
  • 第5章 数据库系统(选择|案例|论文)(重点★★★★★)
  • 【ROS2】ROS开发环境配置——vscode和git
  • 【极致版】华为云Astro轻应用抽取IoTDA影子设备参数生成表格页面全流程
  • OceanBase数据库磁盘空间管理
  • AI声像融合守护幼儿安全——打骂/异常声音报警系统的智慧防护
  • 在Linux中使用ferror()函数和feof()函数判断文件是否读取成功,或者读取指针是否到达了文件末尾?
  • python实战项目66:抓取考研招生专业信息
  • 2025上海车展 | 移远通信重磅发布AR脚踢毫米波雷达,重新定义“无接触交互”尾门
  • IO与文件·I(linux+C)
  • 洛谷题目:P8856 [POI 2002] 火车线路 题解(有一点难)
  • Docker(二):docker常用命令
  • 概率论与统计(不确定性分析)主要应用在什么方面?涉及到具体知识是什么?
  • 如何识别DDoS攻击类型及有效防护?一篇简明指南
  • Git Bash 下使用 SSH 连接出现 “Software caused connection abort” 问题
  • Macos m系列芯片环境下python3安装mysqlclient系列问题
  • 数据需求管理办法有哪些?具体应如何应用?
  • 图神经网络(GNN)基本概念与核心原理
  • 某化工厂运维升级:智和信通运维平台实现工业交换机智能管理
  • Maven 4.0.0 模式-pom.xml配置详解