当前位置：首页 > java >正文

OneRef论文精读（补充）

java 2025/7/17 9:21:31

接上篇：OneRef论文精读

The five referring datasets

这些数据集应用于指代表达式理解（REC）、短语定位（PG）及指代表达式分割（RES）任务。表8列出了详细的统计数据。

在这里插入图片描述

RefCOCO/RefCOCO+/RefCOCOg： 这三个数据集属于指代表达式理解（REC）和指代表达式分割（RES）任务，其图像源自MSCOCO数据集。RefCOCO和RefCOCO+中的指代表达式是通过ReferitGame中提出的双人游戏方式收集的。它们有两个名为“testA”和“testB”的测试集分割。“testA”中的图像仅包含多人的标注；相比之下，“testB”中的图像则包含所有其他类型的物体。RefCOCOg中的表达式是在亚马逊土耳其机器人（Amazon Mechanical Turk）平台上以非互动方式收集的，因此其表达式更长也更复杂。RefCOCOg有“google”和“umd”两种分割。其中，“google”分割没有公开的测试集，且其训练集与验证集的图像存在重叠，而“umd”分割则没有这个问题。因此，为防止测试集数据泄露并遵循先前的研究，我们在微调以及数据集混合预训练的设定中，排除了“google”分割。故此，我们仅在“umd”分割上训练和测试RefCOCOg数据集。

ReferItGame： ReferItGame（简称ReferIt）属于短语定位（PG）任务，其图像来自SAIAPR12数据集，并透过双人游戏收集表达式。在游戏中，第一位玩家会看到一张带有物体标注的图像，并被要求撰写一个指代该物体的自然语言表达式。接着，第二位玩家会看到相同的图像及写好的表达式，并被要求点击物体的相应区域。如果点击正确，两位玩家都会获得积分并交换角色；若点击错误，则会呈现一张新的图像。

Flickr30k Entities： Flickr30k Entities（简称Flickr30k）属于短语定位任务，其图像包含在Flickr30k数据集中。查询语句是图像标题中的简短名词短语。与RefCOCO、RefCOCO+及RefCOCOg相比，这些查询更简单、更容易理解。然而，这也同时增加了表达式的模糊性，导致噪声相对增加。

在这里插入图片描述

数据集缩写解释： 在表2中，我们提供了用于中间预训练的数据集的缩写。具体来说，“GoldG”（在MDETR中提出）是一个混合的区域级细粒度数据集，它由Flickr30k、MS COCO和Visual Genome三个数据集以及用于检测、REC（指代表达式理解）和QGA（泛化问答）任务的标注文本数据组合而成，其规模约为620万（6.2M）。“O365”指Object365数据集，“SBU”代表SBU caption数据集，“VG”代表Visual Genome数据集，“OI”则代表OpenImage数据集。

在这里插入图片描述

预训练模型所用数据集的比较： 如表9所示，我们在数据集混合的预训练设置下，对表2中各主干模型所使用的数据集进行了分析。从表9中可以明显看出，BEiT-3和OFA用于预训练的数据集体量相当。相反，表2中的其他对比工作，如Shikra、Ferret、LION，以及像ONE-PEACE（一个三模态基础模型）这样的其他模型，其使用的数据量明显大于BEiT-3。因此，我们的方法在预训练所使用的数据量方面不具备任何优势。

Thesis Review

这篇论文在视觉语言（Vision-Language）领域， 指代表达式理解与分割（Referring Expression Comprehension and Segmentation） 任务上，提出了一个全新的简洁而高效的框架。

The core issues and challenges

过去的解决方案普遍存在以下几个“痛点”：

结构臃肿：通常采用“双塔”结构，即一个塔（编码器）处理图像，另一个塔处理文本，然后再设计一个复杂的“融合模块”（Fusion Transformer）来将两者信息合并。这导致模型参数量大，结构复杂。
交互复杂：为了让视觉和语言信息更好地对齐，研究者们设计了各种复杂的早期交互机制，如适配器（adapter）、跨模态桥（cross-modal bridge）等。这些设计精巧但不够通用。
预训练与任务的鸿沟：通用的视觉语言预训练模型（如 BEiT-3）虽然强大，但其预训练任务（如普通的掩码建模）与下游的“指代”任务之间存在能力鸿沟，无法很好地捕捉图像和文本之间精细的指代关系。

The core concept and innovation of OneRef

为了解决上述问题，作者提出了 OneRef 框架，重点是 “统一”和“简化”。

统一的单塔结构 (One-tower Structure)
- OneRef 抛弃了传统的双塔结构，采用了一个统一的、模态共享的 Transformer 编码器。这意味着图像块（patches）和文本词元（tokens）都在同一个模型、同一个特征空间中进行处理，就像一个精通双语的人一样，在同一个大脑里思考问题。
- 优势：这种设计从根本上消除了对笨重的融合模块和复杂交互机制的需求，使得整个框架变得异常简洁高效。
创新的掩码指代建模 (Mask Referring Modeling, MRefM)
- 这是本文最关键的创新，是为“单塔”结构注入“指代理解”能力的“灵魂”所在。传统的掩码语言/图像建模（MVLM）只是简单地让模型恢复被遮盖的内容，而 MRefM 的目标更进一步。

MRefM 的核心思想：模型不仅要重建内容（图像或文本），还要重建其与指代目标之间的关系（空间位置或语义相关性）

在这里插入图片描述

MRefM 包含两个部分：
- 指代感知的掩码图像建模 (Referring-MIM)：当模型重建被遮盖的图像块时，它不仅要恢复图像内容本身，还必须额外预测出这个图像块与被指代目标之间的空间关系。这个关系被量化为“视觉目标关系分数”，具体包括当前块到目标中心的水平/垂直距离、以及目标的宽高信息。
- 指代感知的掩码语言建模 (Referring-MLM)：同样，在重建被遮盖的文本词元时，模型不仅要恢复单词本身，还必须额外预测出这个词与被指代图像区域的语义相关性，即“语义目标关系分数”。
动态图像掩码策略：为了更好地学习指代关系，MRefM 没有采用传统的随机掩码，而是提出了一种“指代感知的动态掩码策略”，它会优先、高比例地遮盖被指代的物体区域，迫使模型利用周围的上下文信息来理解和重建目标。

下面这幅图展示了模型的简洁性和通用性：一个统一的编码器可以支持不同的任务，只需更换最后一步的输出头 (head) 即可。

公共部分

输入 (Input) ：两个任务的输入是完全相同的，即一张图片和一个描述图片中特定物体的文本。在这张图的例子中：
- 图片：一个放着几个小蛋糕的金色托盘。
- 文本："a white cake with blue, green, and yellow polka-dots on it."（一个带有蓝色、绿色和黄色波点的白色蛋糕）。
核心模块 (Core Module) ：Unified Modality-shared Encoder（统一的模态共享编码器）。这是整个框架的支柱，它同时接收并处理图像和文本信息，在一个统一的特征空间里进行理解和融合。

在这里插入图片描述

(a) 指代表达式理解 (Referring Expression Comprehension - REC) 任务

这个任务的目标是根据文本描述，在图中用一个矩形框标出对应的物体。

输入: 一张包含多个蛋糕的图片和一段描述性文本，例如“一个带有蓝色、绿色和黄色波点的白色蛋糕”。
处理流程:
1. 图片和文本首先被送入统一的模态共享编码器 (Unified Modality-shared Encoder) 进行处理。
2. 编码后的特征被送入一个轻量级的 REC 任务头 (Referring-based REC head)。
3. 在这个任务头中，模型会计算文本信息 (e_SEP) 和图像各部分特征 ({x_i}) 之间的相似度，生成一个相似度掩码 M_sim。
4. 该相似度掩码随后被用于对视觉特征进行加权和聚合，最终通过一个简单的三层感知机 (MLP) 来预测出边界框的坐标 B̂。
5. 图中还展示了一个盒状掩码约束 (Box mask Constraint)，这是一种额外的监督信号，可以帮助模型更精确地学习定位。
输出: 最终结果是在原图上用一个矩形框准确地框出了那个带有彩色波点的蛋糕。

(b) 指代表达式分割 (Referring Expression Segmentation - RES) 任务

这个任务的目标比 REC 更精细，需要在像素层面精确地分割出文本所描述的物体。

输入: 与 REC 任务完全相同的图片和文本。
处理流程:
1. 输入同样先经过那个统一的模态共享编码器。
2. 之后，特征被送入另一个轻量级的 RES 任务头 (Referring-based RES head)。
3. 该任务头的实现被描述为 “定位的简化版本”。它首先使用三层反卷积 (Deconvolution) 对视觉特征进行上采样，以恢复到更高的分辨率。
4. 然后，通过计算上采样后的视觉特征与文本特征的余弦相似度，直接生成最终的分割掩码 M̂_seg。
输出: 最终结果是在原图上用一个像素级的精确掩码覆盖了那个带有彩色波点的蛋糕。

这张图清晰地展示了 OneRef 框架的优雅之处：利用强大的模态共享编码器来统一处理视觉和语言信息，使其在预训练后就具备了深刻的指代理解能力。因此，在面对不同的下游任务时，无需复杂的融合模块或解码器，仅需更换一个简单、轻量级的任务头，就能高效地完成从物体定位 (REC) 到精细分割 (RES) 的转换。

Research results

性能卓越：在多个主流的 REC 和 RES 数据集上，OneRef 无论是在仅用单个数据集微调，还是混合数据集预训练的设定下，其性能都全面超越了以往的 SOTA（State-of-the-art）方法。
高效性：相较于 Grounding-DINO 等知名模型，OneRef 的参数量更少，计算量（FLOPs）显著降低，而推理速度却快了近 10 倍，真正做到了又快又好。

OneRef 通过一个极简的“单塔”统一了视觉和语言的特征空间，并创造性地提出了“掩码指代建模（MRefM）”这一新的预训练范式，让模型在预训练阶段就学会了精细的跨模态指代关系，从而无需复杂的模块即可高效、精准地完成定位和分割任务。

Further analysis of technical details

OneRef 的核心思想是用一个更聪明的预训练范式，来打造一个更简洁、更高效的指代理解框架。
预训练范式是论文的灵魂——掩码指代建模 (Mask Referring Modeling, MRefM)。

Core innovation: Masked Reference Modeling (MRefM)

传统的掩码语言/图像建模 (MVLM) 只是让模型恢复被遮盖的内容，但这对于需要理解“A 指代 B”这种精确关系的定位任务来说，能力是不够的。MRefM 的目的就是在预训练阶段，直接教会模型这种指代关系。

MRefM 包含两个相辅相成的任务，如图2 所示：

1. 指代感知的掩码图像建模 (Referring-MIM)

这个任务要求模型在重建被遮盖的图像区域时，一心二用：

任务一：重建视觉内容 (Reconstructed visual content)
- 和传统的掩码建模一样，模型需要根据周围没被遮挡的图像块和文本描述，来预测被遮盖区域的视觉特征。
任务二：重建视觉目标关系分数 (Visual target-relation score)
- 这是 MRefM 的关键创新。模型不仅要“画出”被遮盖的内容，还要回答一个问题：“这个被遮盖的图像块，与文本描述的目标物体在空间上是什么关系？”。
- 这个关系被量化为一个4维的分数，分别代表：
  - x-mask: 当前块中心与目标物体中心的水平距离。
  - y-mask: 当前块中心与目标物体中心的垂直距离。
  - w-mask: 目标物体的宽度。
  - h-mask: 目标物体的高度。
- 通过强制模型预测这个空间关系分数，使得每个视觉特征都隐式地包含了定位信息，为下游任务打下了坚实基础。

2. 指代感知的掩码语言建模 (Referring-MLM)

同样地，在重建被遮盖的文本词元时，模型也需要一心二用：

任务一：重建语言内容 (Reconstructed language content)
- 恢复被遮盖的单词，例如 "...another giraffe [mask] it." -> "...another giraffe follows it."。
任务二：重建语义目标关系分数 (Semantic target-relation score)
- 这也是 MRefM 的创新点。模型需要回答另一个问题：“这个被遮盖的词，与图像中被指代的目标物体有多大的语义相关性？”。
- 例如，在“the giraffe walking while another giraffe follows it”这句话中，“giraffe”这个词与图中被指代的长颈鹿区域相关性最高，而“walking”次之，“it”的相关性可能就更低。
- 这个分数由一个“教师模型”提前计算好，作为监督信号，引导模型学习文本和视觉区域的细粒度对齐。

关键技术：指代感知的动态图像掩码策略

为了让 MRefM 更有效，作者设计了一种特殊的掩码策略，而不是随机乱遮。

动机: 如果随机遮盖，很可能遮不到关键的目标物体。
策略: 如论文中的 Algorithm 1 所述，该策略有偏好地进行遮盖：
1. 在目标物体之外的上下文区域，使用一个较低的随机遮盖率 (β)。
2. 在目标物体本身的区域内，使用一个非常高的块状遮盖率 (γ)。
效果: 这种策略迫使模型必须依赖周围的上下文信息（未被遮盖的部分）和文本描述，来共同理解和重建被高比例遮盖的目标物体，从而极大地提升了模型的指代理解能力。

动态掩码策略伪代码实现

# 基于 Algorithm 1 的伪代码实现
def referring_aware_dynamic_masking(image_patches, referred_bbox, beta, gamma):"""Args:image_patches (Tensor): (H, W, D) 图像块网格referred_bbox (Tuple): (x, y, w, h) 指代区域的边界框beta (float): 上下文区域的遮盖率gamma (float): 指代区域的遮盖率Returns:Tensor: (H, W) 最终的掩码矩阵，1表示遮盖，0表示不遮盖"""H, W, _ = image_patches.shapemask = torch.zeros((H, W))# 1. 对整个图像进行低比例的上下文遮盖num_context_mask = int(H * W * beta)indices = torch.randperm(H * W)[:num_context_mask]mask.view(-1)[indices] = 1# 2. 获取指代区域的 patch 坐标x_start, y_start, w, h = get_patch_coords_from_bbox(referred_bbox)# 3. 在指代区域内进行高比例的块状遮盖num_referred_patches = w * hnum_to_mask_in_region = int(num_referred_patches * gamma)# (采用块状遮盖，这里简化为随机选择)region_indices = torch.randperm(num_referred_patches)[:num_to_mask_in_region]# 将指代区域的遮盖应用到总掩码上region_mask = torch.zeros(h, w)region_mask.view(-1)[region_indices] = 1mask[y_start : y_start + h, x_start : x_start + w] = region_maskreturn mask

下游任务迁移 (Finetuning)

得益于 MRefM 强大的预训练，模型在迁移到下游任务时变得异常简单，如图3 所示。

核心优势: 不再需要笨重的融合模块或特殊的定位符（如 [Region] token），因为共享编码器输出的特征已经足够强大且对齐了。

(a) REC 任务头 (定位框)

流程:
1. 计算文本特征 (e_SEP) 和所有视觉特征 ({x_i}) 的相似度，得到一个热力图 M_sim 。
2. 用这个热力图作为权重，对视觉特征进行加权求和。
3. 将聚合后的特征送入一个非常简单的 MLP，直接预测出边界框的4个坐标值。

伪代码实现:


def rec_head(visual_features, text_feature):# visual_features: (N, D), text_feature: (1, D)# 1. 计算相似度热力图similarity_mask = cosine_similarity(visual_features, text_feature) # Shape: (N, 1)similarity_mask = softmax(similarity_mask, dim=0)# 2. 加权聚合视觉特征aggregated_feature = torch.sum(similarity_mask * visual_features, dim=0) # Shape: (D,)# 3. MLP 回归坐标predicted_bbox = mlp_regressor(aggregated_feature) # Shape: (4,)return predicted_bbox

(b) RES 任务头 (分割掩码)

流程: 这个过程更简单。
1. 用反卷积 (Deconvolution) 将视觉特征上采样，恢复到更高分辨率。
2. 直接计算上采样后的视觉特征和文本特征的相似度，得到的结果就是最终的分割掩码 M̂_seg 。

伪代码实现：

def res_head(visual_features, text_feature):# visual_features: (N, D)# 1. 上采样upsampled_features = deconvolution_layers(visual_features) # Shape: (H', W', D)# 2. 计算相似度得到分割掩码segmentation_mask = cosine_similarity(upsampled_features, text_feature) # Shape: (H', W')return segmentation_mask

Technical remarks

关于视觉目标关系分数有效性机制的进一步解释

(1) 设计指代MIM算法的目的： 在现有的MIM（掩码图像建模）范式中，重建过程仅局限于依赖图像自身的视觉特征。为了尽可能地利用跨模态信息来增强内容重建，我们的指代MIM方法在重建过程中，除了视觉模态内容外，还融入了视觉目标关系分数。这种建模方法增加了难度，因为它需要依赖文本信息来重建视觉分支。因此，我们的模型能够更全面地理解视觉和文本信息。通过这种方式，模型不仅能感知图像模态自身的信息，还能更准确地理解不同区域中关键物体特征的位置和相互关联。

在这里插入图片描述

图5：视觉目标关系分数 $s^{vt} \in \mathbb{R}^{N_v \times 4}$ 的重建过程。(x, y) 代表一个普通图像块的坐标，P 是图像块的大小。通过切分预测出的分数，可以得到四个掩码。该分数代表了当前图像块区域与被指代区域之间的空间距离和相对大小。"

这张图详细解释了论文核心创新之一——视觉目标关系分数 (The Visual Target-relation Score) 的构成和意义。这个分数是模型在预训练阶段（特指 Referring-MIM 任务）需要学习重建的目标之一。

1. 左侧：输入与概念

场景: 输入是一张图片和一段指代文本。文本指明了目标是“正在行走的长颈鹿”。
被指代区域 (Referred region): 图中用蓝色虚线框标出了文本描述的目标长颈鹿。这个区域的中心坐标是 (x_c, y_c)，宽度是 w_r，高度是 h_r。
图像块 (Patch region): 整个图片被看作是由许多小的图像块（patch）组成的网格。图中用红色实线框标出了三个示例图像块 p1, p2, p3。
指代方向 (Referring direction): 黄色箭头从各个图像块指向被指代区域的中心。这形象地说明了模型需要学习任意一个图像块与目标物体之间的空间关系。

2. 右侧：输出目标 (视觉目标关系分数)

这部分是关键。模型需要为图中的每一个图像块预测出一个4维度的向量，这4个维度组合起来就是“视觉目标关系分数”。这四个维度分别对应以下四个掩码（mask）：

x-mask: 水平距离掩码
- 公式: (x - x_c) / W
- 含义: 计算每个图像块的中心 x 坐标与目标中心 x_c 的水平距离，并用图像总宽 W 进行归一化。这个值是个相对距离，有正有负（目标左侧为负，右侧为正）。它教模型理解“左/右”的相对位置概念。
y-mask: 垂直距离掩码
- 公式: (y - y_c) / H
- 含义: 类似地，这是每个图像块中心与目标中心的垂直距离（已归一化）。它教模型理解“上/下”的相对位置概念。
w-mask: 宽度关系掩码
- 公式: P / w_r
- 含义: 计算图像块的固定宽度 P 与被指代区域宽度 w_r 的比值。这个值反映了目标物体的相对宽度。如果目标很宽，这个比值就小；如果目标很窄，比值就大。它教模型感知目标的尺度大小。
h-mask: 高度关系掩码
- 公式: P / h_r
- 含义: 类似地，这是图像块高度与目标区域高度的比值，反映了目标的相对高度。

这张图的核心思想是，在预训练阶段，不只是让模型简单地重建被遮挡的像素，而是强迫它去学习一个更高级、更结构化的信息——图中任意一点与指代目标之间的完整空间关系（包括相对位置和相对大小）。

通过学习预测这个复杂的分数，模型在编码器内部就建立起了对空间定位和物体尺度的深刻理解。这就是为什么在下游任务（如定位和分割）中，OneRef 框架可以仅用一个轻量级的任务头就能取得优异性能的根本原因。

实例解析：计算一个图像块的目标关系分数

我们有下面这个场景：

一张图片: 一张 400x400 像素的图片。
一个目标物体: 图片中有一只猫，它的边界框 (Referred region) 坐标是 (x_min=140, y_min=80, x_max=300, y_max=280)。
一个指代文本: “the cat” (这只猫)。
图像块大小 (Patch size): 假设我们像ViT模型一样，把图片切成 16x16 像素的小块。

现在，我们的目标是为图中任意一个 16x16 的图像块，计算出它应该对应的视觉目标关系分数 (4个值)。我们就以图中左上角的一个图像块为例，假设这个块在网格中的位置是第 (row=3, col=5)。

第一步：计算准备工作所需的值

图像尺寸: W = 400, H = 400
图像块尺寸: P = 16
目标猫的中心坐标 (x_c, y_c):
- x_c = (140 + 300) / 2 = 220
- y_c = (80 + 280) / 2 = 180
目标猫的宽高 (w_r, h_r):
- w_r = 300 - 140 = 160
- h_r = 280 - 80 = 200
我们选定的图像块的中心坐标 (x, y):
- 它在第5列，所以中心x坐标是 x = 5 * 16 + (16 / 2) = 88
- 它在第3行，所以中心y坐标是 y = 3 * 16 + (16 / 2) = 56

第二步：计算4个维度的分数

现在，我们用图5中的公式来计算这个图像块（中心在{88, 56}）的目标关系分数：

x-mask (水平距离): (x - x_c) / W
- 计算: (88 - 220) / 400 = -132 / 400 = -0.33
- 含义: 这个负数表示，我们的图像块在目标猫中心的左边。
y-mask (垂直距离): (y - y_c) / H
- 计算: (56 - 180) / 400 = -124 / 400 = -0.31
- 含义: 这个负数表示，我们的图像块在目标猫中心的上边。
w-mask (宽度关系): P / w_r
- 计算: 16 / 160 = 0.1
- 含义: 这个值表示，一个图像块的宽度是目标猫宽度的 10%。
h-mask (高度关系): P / h_r
- 计算: 16 / 200 = 0.08
- 含义: 这个值表示，一个图像块的高度是目标猫高度的 8%。

结论
对于这个位于 (row=3, col=5) 的图像块，模型在预训练时需要学习输出的目标向量就是 [-0.33, -0.31, 0.1, 0.08]。模型需要为图上所有的图像块都计算并学习预测这样一组独特的关系向量。

伪代码实现

下面的伪代码展示了如何为一张给定的图片和目标边界框，生成完整的视觉目标关系分数图。

import numpy as npdef calculate_visual_target_relation_score(image_width, image_height, bbox, patch_size):"""为一张图片的每个图像块计算其视觉目标关系分数。Args:image_width (int): 图片宽度 (W)image_height (int): 图片高度 (H)bbox (tuple): 目标物体的边界框 (x_min, y_min, x_max, y_max)patch_size (int): 图像块的大小 (P)Returns:np.array: 一个形状为 (grid_h, grid_w, 4) 的分数图，每个位置存储了对应图像块的4维关系分数。"""# --- 1. 准备阶段 ---# 解包边界框坐标x_min, y_min, x_max, y_max = bbox# 计算目标物体的中心 (x_c, y_c)x_c = (x_min + x_max) / 2y_c = (y_min + y_max) / 2# 计算目标物体的宽高 (w_r, h_r)w_r = x_max - x_minh_r = y_max - y_min# 计算图片可以切成多少行列的图像块grid_w = image_width // patch_sizegrid_h = image_height // patch_size# 初始化一个空的4D分数图，用来存储结果score_map = np.zeros((grid_h, grid_w, 4))# --- 2. 遍历每个图像块并计算分数 ---# 遍历网格的每一行for row in range(grid_h):# 遍历网格的每一列for col in range(grid_w):# 计算当前图像块的中心像素坐标 (x, y)patch_center_x = col * patch_size + (patch_size / 2)patch_center_y = row * patch_size + (patch_size / 2)# --- 3. 应用图5中的公式计算4个维度的分数 ---# 维度1: 归一化的水平距离score_x = (patch_center_x - x_c) / image_width# 维度2: 归一化的垂直距离score_y = (patch_center_y - y_c) / image_height# 维度3: 宽度关系 (防止除以0)score_w = patch_size / w_r if w_r > 0 else 0# 维度4: 高度关系 (防止除以0)score_h = patch_size / h_r if h_r > 0 else 0# 将计算出的4D分数存入分数图的对应位置score_map[row, col] = [score_x, score_y, score_w, score_h]return score_map# --- 使用我们上面的实例进行测试 ---
img_w, img_h = 400, 400
cat_bbox = (140, 80, 300, 280)
p_size = 16# 计算整张图的分数图
full_score_map = calculate_visual_target_relation_score(img_w, img_h, cat_bbox, p_size)# 打印我们手动计算的那个图像块 (row=3, col=5) 的分数进行验证
# 注意：数组索引是 [row, col]
print(f"图像块 (row=3, col=5) 的目标关系分数是: {full_score_map[3, 5]}")
# 预期输出应接近: [-0.33, -0.31, 0.1, 0.08]

这个实例和伪代码清晰地展示了“视觉目标关系分数”是如何从一个具体的边界框计算出来的。模型在预训练阶段的核心任务之一，就是学会仅通过看图片和文本，就能反向生成这个精确的分数图。

(2) 视觉目标关系分数（即x、y、w、h掩码）的工作方式与原理： 我们在图5中提供了更清晰的解释。该分数表示了当前图像块区域与被指代区域之间的空间距离，这在模型的每个标记（token）中隐式地部署了定位能力。在重建视觉特征和目标关系分数时，模型实际上需要对文本模态信息和局部视觉信息有一个全局且全面的理解。在此基础上，模型需要依赖重建出的局部图像块的视觉特征，来推断被指代物体的具体位置和尺寸，进而预测出视觉目标关系分数。最终，指代MIM能够增强模型对文本和视觉信息的全局及多模态理解，从而学习到更通用的视觉表示，在部署到下游指代任务时能够拥有更好的泛化能力（generalization ability）。

我们提出的指代MIM是我们自己的设计，主要用于改进MAE/BEiT存在的缺陷。我们方法的理论基础可以在一些经典的计算机 vision 工作中找到，例如YOLO系列，它便是基于对图像的全局理解来预测每个网格单元所对应的物体框的位置、尺寸、置信度和类别。YOLO等工作的研究也证实了，以这种方式获得的物体检测模型，在迁移到与训练数据差异巨大的检测任务时，相比其他检测器表现出更强的泛化能力。

在这里插入图片描述

无监督区域的选择

选择无监督区域的过程与弱监督视觉定位有相似之处。我们从ALBEF的弱监督定位方法中汲取灵感，采用一个经过图文对比调优的BEiT-3模型来对图像和文本进行编码，从而获得一个跨模态的文本到图像注意力图用于选择。随后，利用这个跨模态注意力以及MAttNet提供的文本句子模块化解析，我们能够为每个候选区域推导出分数。最终，在指代MRefM中，我们选择得分最高的区域作为我们的目标。

指代感知的文本掩码

在指代MLM（掩码语言建模）中，我们利用了一种指代感知的文本掩码策略。具体来说，我们基于一个随机掩码，优先掩盖掉表达式文本中的指代主语，该主语通过自然语言处理（NLP）解析工具（如spaCy）获得。由于这个小技术点与指代感知的动态图像掩码策略相比，并未观察到显著的性能增益，因此我们没有提供额外的消融实验。

我们的任务头与其他框架的区别

近期，一些多任务视觉定位研究已将定位和分割两种任务头都整合到其框架中。与我们工作最相关的是VG-LAW，它通过视觉自适应权重生成的方式，消除了基于Transformer的融合编码器，从而简化了定位头和分割头的实现。相比之下，对于REC（指代表达式理解）头，我们提出了一种基于跨模态余弦相似度的边界框掩码约束，这显著提升了此类定位方法的准确性。对于RES（指代表达式分割）头，我们不采用自适应权重生成，而是直接利用余弦相似度，为经过三层反卷积上采样后的视觉标记（token）获取分割掩码。

Extra experimental results

1. 在mixup预训练设置下于ReferIt和Flickr30k数据集上的结果

在这里插入图片描述

根据论文内容，实验中提到的“mixup预训练设置”指的是有监督的、混合数据集的中间预训练设置（supervised dataset-mixed intermediate pre-training setting）。

这是一种两阶段的训练策略，具体流程如下：

第一阶段：混合数据集进行中间预训练
- 混合数据集 (Dataset-mixed)：首先，将多个相关的、带有监督信息（即有标注边界框或分割掩码）的数据集混合在一起，创建一个更庞大、更多样化的训练集。例如，论文中提到的RefC就是将 RefCOCO、RefCOCO+ 和 RefCOCOg 三个数据集的训练数据混合而成的。
- 中间预训练 (Intermediate Pre-training)：模型在这个大型的混合数据集上，使用论文提出的核心方法 MRefM (掩码指代建模) 进行预训练。这一步的目的是让模型在进入最终任务前，先从一个更广泛、更多样的数据分布中学习到强大的、通用的指代理解能力。
第二阶段：在目标任务上进行微调 (Fine-tuning)
- 经过第一阶段的预训练后，模型已经具备了很强的基础能力。
- 随后，将这个预训练好的模型在最终的目标测试集（或其对应的特定训练集）上进行微调，以获得最终的性能评测结果。

总而言之，这个设置的核心在于不局限于单个数据集，而是通过“混合（mixup）”多个数据集来进行一次更强的预训练，从而提升模型的泛化能力和最终性能。这种做法也与 Grounding-DINO 等其他先进的预训练模型所采用的策略保持一致。

我们框架在mixup预训练设置下，于PG（短语定位）任务（即ReferIt和Flickr30k数据集）上的结果呈现在表12中。值得注意的是，大多数在此设置下进行的研究并未提供这些结果，因此表中只包含了少数几项工作。如表12所示，我们的基础模型在该两个数据集上分别以1.91%和1.93%的优势超越了HiVG，并达到了当前最优（SOTA）性能。

2. 在oIoU指标下RES任务的结果

在这里插入图片描述

在oIoU指标下RES（指代表达式分割）任务的结果呈现在表13中。oIoU的计算方式是所有测试样本（每个样本由一个文本查询和一张图像组成）的总交集面积与总并集面积之比。该指标尤其偏好于较大的物体。如表13所示，(1) 在单数据集微调设置中，我们的基础模型在RefCOCO+/g的testB/testB/test分割上分别以3.77%、8.87%和5.52%的优势超越了RISCLIP。(2) 同样地，在数据集混合的中间预训练设置中，我们的基础模型在RefCOCO+/g的testB/testB/test分割上分别以2.03%、8.07%和6.69%的优势超越了UNINEXT。此外，我们的大型模型展现了出色的可扩展性，并带来了额外的性能增强（exhibits remarkable scalability with additional performance enhancements，“可扩展性 (scalability)”指的是 OneRef 模型的性能随着模型尺寸的增大而稳定、显著提升的能力）。

“展现了出色的可扩展性” 这句话是在强调，OneRef 的架构设计和 MRefM 训练范式是健康且有效的。当你投入更多的计算资源、构建一个更大的模型时，你能够获得实实在在的性能回报，而不是出现性能饱和或下降。这是一个非常理想的模型特性。

3. 与SOTA方法的计算成本分析

在这里插入图片描述

在本论文中，我们着重指出我们的模型架构相比其他框架所具备的两个显著优势：(a) 我们不使用Transformer来融合视觉和语言特征，而是采用了一个简单轻量的任务头；(b) 我们的单塔结构消除了在主干网络中进行早期交互的需求，从而降低了模型的计算复杂性。

我们从多个角度比较了我们的模型与几项知名SOTA工作在REC任务上的能效，包括参数数量、计算复杂度（FLOPs）、推理速度（FPS）和测试时间（秒）。从表14中可以看出，由于我们模型结构的简化，其参数数量和计算复杂度显著低于其他知名模型。具体来说，我们的特征融合和定位头仅需1.7M参数，而其他方法使用20M，这意味着我们的参数量仅为它们的8.5%左右。此外，我们的计算量仅为Grounding-DINO的34.9%和MDETR的25.2%。我们的推理速度比Grounding-DINO和TransVG++快10倍（该速度也与模型使用的图像尺寸有关）。尽管有这些优势，得益于模态共享的特征空间，我们的性能依然超越了所有这些知名工作。

4. MRefM在单数据集微调和mixup预训练设置下的完整消融研究

在这里插入图片描述

单数据集微调设置 (single-dataset fine-tuning setting) 指的是，在训练和评估一个特定任务时，仅使用该任务自身的数据集，而不混合任何额外的数据。

这是一种基础的、公平的实验设定，用于和其他同样在单个数据集上进行训练的传统方法进行比较。

具体来说，这个设置在论文中也包含一个两阶段的过程：

中间预训练 (Intermediate Pre-training): 首先，模型会使用目标任务自身的训练集数据，进行一次论文核心方法 MRefM 的预训练。例如，在评估 RefCOCO 数据集上的性能时，这一步就只使用 RefCOCO 的训练数据。
微调 (Fine-tuning): 经过上述预训练后，模型再在该数据集上进行最终的微调以获得评测结果。

这个设置的限制在于数据来源的唯一性，即所有训练步骤都只围绕当前这一个数据集，这与将多个数据集混合起来进行预训练的“mixup设置”形成对比。

MRefM在单数据集微调和mixup预训练两种设置下的完整消融结果在表15中提供，该表可作为正文中表4的补充。在表中，当使用块级或随机掩码策略时，掩码率被设定为0.4。

5. 指代感知的动态掩码策略中的掩码率消融研究

在这里插入图片描述

如表16所示，我们对我们提出的指代感知的动态图像掩码策略中的掩码率进行了消融实验。我们观察到，尽管MAE的像素重建采用了高达0.75的掩码率，但BEiT的特征重建要取得更好结果，需要的掩码率范围大约在0.4到0.45之间。在我们提出的方法中，通过将 $\beta$ 和 $\gamma$ 分别设置为0.35和0.75可以获得理想的结果；其中 $\beta$ 代表被指代区域以外的掩码率，而 $\gamma$ 表示其内部的掩码率。实验统计显示，我们每个样本的整体掩码率 $\alpha$ 大约在0.4 ~ 0.5之间。

Visualization of the results

如图6、图7和图8所示，我们通过一些相对具有挑战性的例子，展示了定性的定位和指代分割结果。每个例子都展示了两个不同的查询文本。跨模态特征是通过计算OneRef-B的REC（指代表达式理解）迁移模型中[SEP]语言标记与视觉标记之间的余弦相似度获得的。这些结果展示了我们的OneRef模型在复杂文本理解和跨模态定位方面强大的语义理解能力。

在这里插入图片描述

Directions for improvement

Limitations

这部分指出了当前研究存在的几个不足之处：

数据集规模有限: 论文中模型的预训练主要依赖于相对较小的 RefC 数据集，而其他一些研究工作使用了规模更大的数据集进行预训练。（这就像教一个学生。作者只用了“一本核心教科书”（RefC数据集）来教这个学生。虽然学生把这本教科书学得很好，成绩优异，但毕竟见识有限。而其他的“学生”（别的模型）可能读了“一整个图书馆的书”（更大的数据集），知识面更广，可能在某些更复杂的考试中表现更好。作者承认，如果给他们的模型也看那么多书，效果可能会更强。）
对监督数据的依赖: 论文提出的核心方法 MRefM 范式，需要额外的、带标注的指代性边界框作为监督数据，这比自监督预训练方法需要更多的标注信息。（作者发明的这个学习方法（MRefM）非常高效，但有个前提：它像一个需要老师“划重点”的学生。你必须在图片上明确地用方框把“答案”圈出来，它才能学习。这种“划重点”的数据（带边界框的标注）制作起来又贵又费时。相比之下，有些“自监督”方法，像一个能“自主学习”的学生，不需要老师划重点，只要把海量的书籍给它，它自己就能摸索出规律。）
无监督预训练的挑战:
- 作者虽然探索了无监督预训练的潜力，但也指出了一个核心困难。（作者尝试解决“划重点”的问题，想让模型去网上自学（使用网络爬取的图文数据），但发现了一个大问题：网上的图文描述很模糊）
- 当使用从网络上爬取的图文数据时，很多文本描述的是整个图像（例如“海滩上的一天”），而不是图中的某个特定物体。
- 这种图文不完全对应的情况，会在大规模无监督预训练时引入挑战和偏差。（这就像让学生去网上看图作文。你给他一张“家庭在公园野餐”的照片，但网上的配文却是“阳光明媚的一天”。学生看完后，完全不知道这句话到底是指照片里的“爸爸”、“草地”、还是“篮子”。这种图文不匹配的情况在网上非常普遍。如果用这种“模糊”的材料来学习，模型很容易学跑偏，产生偏差。因此，想让模型大规模地“网上自学”，还面临着巨大的挑战。）
对未来的启发: 作者因此认为，这篇论文应作为对后续研究者的一种启发，以激励他们提出更方便、即插即用的建模方法。

Broader impacts

这部分探讨了该技术可能带来的正面和负面社会影响：

正面影响: OneRef 模型强大的定位和分割能力，可以让用户通过简单的文本查询轻松地满足自己的需求。（作者打造的这个模型，就像一把功能强大且操作简单的“瑞士军刀”。普通用户不需要懂复杂的技术，只要输入一句话，就能让它在图片或视频里精确地找到自己想要的东西，非常方便。）
负面影响与担忧:
- 滥用风险: 作者担心，OneRef 强大的理解能力可能会被不当使用，例如用于大规模的非法视频监控。（成为“天眼”。因为模型能根据文字描述精准定位，不法分子可能将其接入城市的监控系统。操作员只需输入“穿红衣服的男人”或“所有单独放置的背包”，系统就能自动、大规模地进行追踪和监控，这构成了严重的隐私和安全威胁。）
- 操控可能: 模型的开放集定位能力可能会被特定的文本提示所操控，以实现有针对性的物体检测或人体追踪。（被“教坏”产生偏见。更可怕的是，这个模型可以被“操控”或“教坏” 。如果一个心存偏见的操作员，总是输入“那个看起来很可疑的人”来追踪特定人群，久而久之，模型可能会自己学会这种偏见，在未来的任务中，自动地将某些无辜的人群标记为“可疑”，导致机器做出不公平的判断。）
- 偏见与不公: 这种操控可能会给检测器带来偏见，并导致不公平的预测结果。

作者一方面为自己的技术突破感到自豪，另一方面也负责任地指出了技术的潜在风险，提醒社会和后续研究者需要警惕并思考如何规避这些负面影响。

基于 OneRef 的核心贡献，试图将其推向更广阔、更复杂的应用场景。可以从以下几个方面进行拓展：

Direction：面向开放域的自监督掩码指代建模 (Self-Supervised MRefM for Open-Domain)

motivation：论文中提到，MRefM 在有监督设置下表现优异，但在无监督设置下面临挑战，因为网络爬取的图文对（如 LAION 数据集）中的文本通常描述整个图像，而非特定区域。这导致很难获得高质量的“指代区域”作为监督信号。
Innovative ideas：
1. 迭代式伪标签生成与精炼（Iterative Pseudo-Labeling and Refinement）：设计一个自举（Bootstrapping）或迭代训练框架。
  - 第一步（弱启动）：利用现有的弱监督方法（如 CLIP 的注意力图或无监督区域分割算法）为海量网络图文对生成粗糙的、可能带噪的伪指代框。
  - 第二步（MRefM 训练）：使用这些带噪的伪标签对 OneRef 模型进行 MRefM 预训练。
  - 第三步（自我精炼）：训练后的模型本身具备了更强的指代能力。利用这个新模型的跨模态注意力图，反过来为同一批数据生成质量更高、更精确的伪指代框。
  - 第四步（迭代）：重复第二步和第三步，让模型在“自我指导”下不断提升，摆脱对固定“教师模型”的依赖，从而在完全无监督的开放域数据上学习到强大的指代能力。
Research value：这将是第一个真正意义上的大规模、自监督掩码指代预训练模型，能极大拓展该范式的应用范围，有望成为视觉定位领域新的基础模型（Foundation Model）。

Direction：将 MRefM 范式融入大型多模态模型 (Injecting MRefM into Large Multimodal Models)

motivation：论文的 OneRef 模型虽然高效，但在通用知识和复杂推理方面，与 GPT-4V 等大型多模态模型（LMMs）相比仍有差距。而 LMMs 虽然知识广博，但在精细化、像素级的定位能力上仍有提升空间。
Innovative ideas：
1. MRefM 作为指令微调任务（MRefM as an Instruction-Tuning Task）：将 MRefM 改造为一种新的“指令微调”任务。例如，构建这样的指令数据：
```
输入：图片 + ‘那个戴着红色帽子的男人’
输出：[男人区域的掩码] + [男人区域与图片中任意点(x,y)的相对位置关系]
```
2. 在 LMM 中引入指代关系头（Referring-Relation Head in LMMs）：在 LMM 的视觉-语言融合层之后，增加一个轻量级的预测头，专门用于预测 MRefM 中的“视觉/语义目标关系分数”。
Research value：这是一种双赢的结合。MRefM 能显著增强 LMMs 的“像素感知”和“空间推理”能力，让 LMMs 不仅能“看懂”，更能“指对”。研究成果可以直接提升 LMMs 在交互式视觉问答、机器人指令理解等应用中的表现。

Direction：时空与三维领域的掩码指代建模 (Spatio-Temporal and 3D MRefM)

motivation：OneRef 目前处理的是静态 2D 图像。现实世界的应用场景更多地涉及视频（时空维度）和 3D 环境（如机器人、自动驾驶）。
Innovative ideas：
1. 视频指代表达式分割（Video-RES）：将 MRefM 从空间域扩展到时空域。
  - 时空目标关系分数：预测目标不仅要在空间上定位，还要在时间上持续。关系分数需要包含时间维度，例如，预测一个像素点是否属于“正在跑开的那个人”在第 t 帧的掩码。
  - 动态时空掩码：在视频片段中，沿着时间轴遮盖一个物体的运动轨迹（一个 tube），迫使模型理解物体的动态行为和外观变化。
2. 3D 指代理解（3D Referring Comprehension）：将 MRefM 应用于点云或 3D 场景表示。
  - 3D 目标关系分数：在点云数据中，预测每个点与目标物体（如“桌子上那个最高的杯子”）的 3D 空间距离、相对大小等关系。
Research value：将 MRefM 这一高效的建模范式推广到更高维度的应用场景，是该技术落地（如机器人抓取、场景理解）的关键一步，具有巨大的应用前景和学术价值。

Direction：基于 MRefM 的对话式与交互式定位 (Conversational & Interactive Grounding with MRefM)

motivation：现实中的指代通常是多轮、交互式的。例如，用户说“那辆车”，AI 可能会反问“是左边红色的那辆吗？”，用户再澄清“是的”。OneRef 目前是一次性输入输出。
Innovative ideas：
1. 对话历史感知的 MRefM（History-Aware MRefM）：让 MRefM 模型能够接收和处理对话历史。
  - 模型在每一轮都需要更新其内部的“指代信念”（belief state）。
  - MRefM 的目标函数可以被修改为，预测当前话语如何更新或约束上一轮的指代目标。例如，上一轮定位了所有车，这一轮输入“红色的”，模型需要学习将注意力聚焦到红色车辆上，并更新其目标关系分数。
Research value：推动视觉定位任务从静态的“一问一答”向动态的、更符合人类交际习惯的“多轮对话”演进，是实现更自然、更智能的人机交互的关键技术突破。

Appendix

选择无监督区域与弱监督视觉定位

这两个概念是解决“在没有人工标注的情况下，如何让模型学习定位”这一问题的关键。

选择无监督区域 (Selecting Unsupervised Regions): 这指的是在完全没有人工标注的情况下，用纯粹的图像算法来自动找出图片中可能存在的物体区域。论文中提到，他们采用了 Felzenswalb-Huttenlocher (FH) 算法。这个算法可以根据像素的颜色、纹理等信息，将图片分割成许多个不同大小和形状的区域。这个过程是“无监督”的，因为它不需要知道这些区域具体是什么物体。
弱监督视觉定位 (Weakly-supervised Visual Grounding): 这个任务的目标是，只给模型提供“图片-文本对”（比如一张图和一句描述“一个男人在打篮球”），而不提供精确的边界框标注，让模型自己学会找出文本对应的物体。这篇论文借鉴了该领域的思想来处理无监督数据：从 FH 算法生成的众多无监督区域中，利用一个预训练好的模型（BEiT-3）和一些弱监督定位技术，来自动挑选出与文本描述最匹配的那个区域，作为 MRefM 预训练的“伪标签”。

简单来说：就是先用算法“盲目地”把图切成一堆区域（无监督选择），再用一个有基本图文理解能力的模型，从中“猜出”文本描述的是哪一块（弱监督定位）。

无监督MRefM中间预训练后进行微调

这是一个两阶段的训练流程，旨在让模型在面对最终任务前，先进行充分的“热身”和“预习”。

阶段一：无监督MRefM中间预训练 (Unsupervised MRefM Intermediate Pre-training):
- 在这一阶段，研究者使用海量的、没有人工标注边界框的图文数据（比如从网络上爬取的图片和描述）。
- 模型利用我们上面提到的“无监督区域选择”和“弱监督定位”技术，为这些数据自动生成伪的边界框标签。
- 然后，模型在这些带有伪标签的海量数据上，进行论文提出的 MRefM 预训练。目的是让模型先学习到通用的、细粒度的指代关系理解能力。
阶段二：微调 (Fine-tuning):
- 经过第一阶段的“预习”后，模型已经具备了很强的基础能力。
- 这时，再将这个预训练好的模型，在小规模的、有高质量人工标注的目标数据集（如 RefCOCO）上进行训练，针对特定任务做最后的调整和优化。

一句话总结：先让模型在大量免费的、自动生成标签的数据上进行广泛学习（中间预训练），然后再用少量精标数据进行精细调优（微调），这样可以达到更好的性能。

利用跨模态注意力及MAttNet推导分数

这句话描述了在“弱监督视觉定位”中，如何为自动生成的候选区域打分的具体过程。

跨模态注意力 (Cross-modal Attention): 在 Vision Transformer 模型中，这是一种机制，可以可视化地显示出文本中的某个词语在图像的哪些区域上“注意力”最集中。例如，输入文本“长颈鹿”，注意力图就会在图像中长颈鹿所在的位置呈现“高亮”。这为我们提供了一个初步的定位热力图。
MAttNet提供的文本句子模块化解析: MAttNet 是一个早期的视觉定位模型，它的一个特点是能将一句话分解成有意义的模块。例如，它能把“戴着红帽子的男人”分解成“男人”和“戴着红帽子”这两个独立的语义模块。
推导出分数: 结合以上两者，就可以为每个候选区域打分了。比如，算法生成了三个候选区域 A、B、C。我们可以分别计算：
1. 区域 A 在“男人”这个词的注意力图上有多亮？
2. 区域 A 在“红帽子”这个词的注意力图上有多亮？
3. 将这些分数结合起来，得到区域 A 的总分。
  对所有候选区域都进行这样的计算，总分最高的那个区域，就被认为是与整句话最匹配的区域。

REC头的边界框掩码约束

这是在训练REC任务头时，为了提升定位精度而增加的一个巧妙的额外损失函数。

标准做法: REC 头会计算一个文本和图像的跨模态余弦相似度图 (M_sim)，这个图就像一个热力图，标示了目标物体可能的位置。模型利用这个图来预测最终的边界框。
边界框掩码约束 (Box mask constraint): 作者认为，既然这个相似度图 M_sim 已经指示了物体位置，那它本身就应该长得像一个物体的粗略掩码。因此，他们把真实的边界框（Ground Truth Bbox）也转换成一个只在框内为1、框外为0的掩码 M_box。然后，他们强制要求模型生成的 M_sim 要和这个 M_box 尽可能地相似。这种相似性是通过分割任务中常用的 Focal Loss 和 Dice Loss 来计算的。

简单来说：就是给模型增加了一个新任务——“你生成的那个中间过程的热力图，必须看起来就像最终答案的那个框一样”，以此来约束模型学习更精确、更紧凑的注意力。

自适应权重生成是什么？

自适应权重生成 (Adaptive Weights Generation) 是一种与 OneRef 不同的技术，被其他一些模型（如论文中提到的 VG-LAW）所采用，用于融合视觉和语言信息。

核心思想: 它的核心思想是利用文本查询来动态地生成一组权重。
工作方式:
1. 模型接收文本输入（比如“红色的杯子”）。
2. 语言模型部分不仅仅是提取文本特征，还会输出一组特定的“权重”或“参数”。
3. 这组权重随后被用来 “作用于”或“调整” 视觉特征。例如，这些权重可能会增强视觉特征中与“红色”和“杯子形状”相关的通道，同时抑制其他无关的特征。
与 OneRef 的区别:
- 自适应权重生成: 是一种主动的、动态的特征调整过程。语言指导视觉“应该关注什么”。
- OneRef 的方法: 是一种更直接的相似度计算。它认为经过 MRefM 预训练后，视觉和语言特征已经在同一个空间里对齐得很好了，不需要额外的动态调整，直接计算它们的余弦相似度就能得到最终结果。