大模型面试题:多模态处理多分辨率输入有哪些方法?
更多面试题,请看 https://gitee.com/lilitom/ai_interview_questions/blob/master/README.md
目前处理多模态多分辨率输入时,主要有两种策略:一种是切片(Tiling)方法,另一种是组合(Packing)方法。
切片方法的核心是确定一个基准分辨率,称为“切片单元”(tile)。接着将图像分割成多个子块,每个子块的形状与切片单元的形状相匹配,并在批量维度上进行组合。此外,切片方法还会将原始图像调整到与切片单元相同的形状,并将其与子块组合,以保留全局信息。这种方法通过固定形状的视觉变换器(ViT)以一种较为直接的方式实现了动态分辨率的推理。
组合方法的灵感来源于自然语言处理中的序列组合技术(sequence packing,见论文《Efficient Sequence Packing without Cross-contamination: Accelerating Large Language Models without Impacting Performance》)。其核心思路是将不同分辨率的图像特征在经过分割(patchify)后,在序列维度上进行组合。同时,通过引入块对角掩码(block diagonal mask)来避免不同图像的token之间进行注意力计算,从而实现并行处理。