当前位置: 首页 > ops >正文

论文阅读 2025-8-3 [FaceXformer, RadGPT , Uni-CoT]

最近ICCV 2025很多工作都release了,赶紧跟一波热度了解一下大家在做什么

1. FaceXFormer: A Unified Transformer for Facial Analysis

这篇论文的主要创新点在于设计了新的网络结构,使得模型能够在9个face analysis相关的task上得到比较好的结果。

网络结构设计上的创新:

在这里插入图片描述

(1) 多尺度编码器

这个部分就是左侧的4个clock,金字塔一样的结构,明显使用CNN来构建,假设就是普通Unet吧,论文没说。

作者认为多尺度的信息有帮助“例如,年龄估计需要全局表示,而面部解析则需要细粒度表示。”

然后MLP-Fusion就是参考了SegFormer网络结构的设计, 从多尺度特征 {Si}n i=1 生成融合的面部表示。

(2)FaceX Decoder

参考了DeTr的工作,为每一个任务设计了任务Token,然后设计了FaceX Decoder,来完成后面的不同任务,这一步只是将face token 和 task token 进行交叉注意力机制来进行更深层次的特征交互,后续这里得到的高纬度特征还是需要经过不同的任务头。

(3)任务头,不同任务采用不同的任务头部网络:

  • 关键点检测任务使用沙漏网络(hourglass network)
  • 头部姿态估计任务使用回归MLP
  • 年龄、性别、种族、表情、可见性以及属性预测任务则使用分类MLP

对于面部解析任务,我们利用输出F̂,先通过上采样层进行处理,然后与面部解析token进行叉乘操作,从而获得分割图。不同任务使用的token数量如下:

  • 分割任务:token数量对应总类别数 (估计还是使用Unet的结构反向解码)
  • 关键点预测:68个token(对应68个面部关键点)
  • 头部姿态估计:9个token(表示3×3旋转矩阵)
  • 其他任务:每个任务使用1个token

但是说实话,其实这个FaceXformer也就是把一些任务做细了。跟 Faceptor 相比,也就是多了 头部姿态估计(Head Pose Estimation)面部可见性(Face Visibility) 分析这两个任务。

然后他的loss损失就是每一个任务的loss加权加起来,具体加权看代码。

2. RadGPT & AbdomenAtlas 3.0

这是一个放射学腹部CT的数据集和大模型的工作。

提出了一个1200+患者的一个CT数据集,然后训练了一个GPT来生成报告。

3. Uni-CoT: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

这篇好像是基于Bagel做的,但是Bagel是近期的5月的模型,所以也是很新的工作。

因为视觉思考很费token,所以作者设计了一个马尔科夫链的一个决策推理模型。

在这里插入图片描述
作者的分析和观察以及解决方法如下:
在这里插入图片描述
具体来说,模型的思考过程有4个stage,其中subtask可以有很多个,然后每一个状态节点可以被考虑成之前的所有文本+当前的图像(不知道是不是所有图像都输入,不然token也太多了吧,看了一下好像只有原始的图像以及当前的edit image):
在这里插入图片描述
这个是他设计的马尔科夫链的流程:

具体状态转移明显就是让bagel来生成下一步的图片以及summary,然后再给他一个奖励。

这个明显很不好做,因为不像GRPO一样很快地给出奖励(如果累积到最后面,那么梯度都要爆炸了,或者显存都要爆炸了)。
在这里插入图片描述

http://www.xdnf.cn/news/17367.html

相关文章:

  • 矩阵的条件数 向量的条件数
  • 大疆上云之SRS视频流服务配置
  • “黑影御剑飞行”视频引发的思考
  • 人类语义认知统一模型:融合脑科学与AI的突破
  • Linux网络子系统架构分析
  • Linux网络编程:TCP的远程多线程命令执行
  • 商品、股指及ETF期权五档盘口Tick级与分钟级历史行情数据多维解析
  • 元数据管理与数据治理平台:Apache Atlas 词汇表 Glossary
  • DeepPHY Benchmarking Agentic VLMs on Physical Reasoning
  • QML 鼠标穿透
  • dokcer 容器里面安装vim 编辑器
  • 【lucene】HitsThresholdChecker命中阈值检测器
  • 闲鱼智能监控机器人:基于 Playwright 与 AI 的多任务监控分析工具
  • PNPM总结
  • 面向软件定义汽车的确定性以太网网络解决方案
  • day 36_2025-08-09
  • 【线性代数】其他
  • 【2025】Datawhale AI夏令营-多模态RAG-Task1、Task2笔记-任务理解与Baseline代码解读
  • 我想做自动化报社保,用哪种技术更好一点呢?
  • ✨ 基于 JsonSerialize 实现接口返回数据的智能枚举转换(优雅告别前端硬编码!)
  • 【攻防实战】从外到内全链路攻防实战纪实
  • 一周学会Matplotlib3 Python 数据可视化-网格 (Grid)
  • React Native jpush-react-native极光推送 iOS生产环境接收不到推送
  • linux安装php
  • kafka架构原理快速入门
  • Office安装使用?借助Ohook开源工具?【图文详解】微软Office产品
  • 【解决方法】华为电脑的亮度调节失灵
  • 华为实验:SSH
  • 时间序列处理:从“杂乱数据”到“趋势预测”,3步解锁时间的秘密
  • stm32项目(25)——基于stm32的植物生长箱环境监测系统