当前位置：首页 > web >正文

字节开源多模态文档图像解析模型：Dolphin

web 2025/8/11 12:47:05

Dolphin：Document Image Parsing via Heterogeneous Anchor Prompting

一、论文简介

Dolphin 是一种新颖的多模态文档图像解析模型，采用 “先分析后解析” 的范式。它旨在应对文档理解中文字段落、图表、公式、表格等复杂交织元素带来的挑战，通过两阶段方法来处理。

二、模型方法

第一阶段 ：对页面进行全局布局分析，生成符合自然阅读顺序的元素序列。
第二阶段 ：利用异构锚点和任务特定提示，并行高效地解析文档元素。

三、模型架构

Dolphin 基于视觉编码器 - 解码器架构，使用变换器构建。

视觉编码器 ：基于 Swin 变换器，用于从文档图像中提取视觉特征。
文本解码器 ：基于 MBart，用于从视觉特征中解码文本。
基于提示的接口 ：使用自然语言提示来控制解析任务，作为 Hugging Face VisionEncoderDecoderModel 实现，便于与 Transformer 生态系统集成。

四、使用方式

即将发布演示，可通过其 GitHub 仓库查看详细使用说明。支持页面级解析和元素级解析，包括对整个文档图像的解析以及对段落、表格、公式等单个元素图像的解析。

五、开源许可

该模型遵循 MIT 许可证发布。

核心技术总结如下：
在这里插入图片描述

http://www.xdnf.cn/news/8501.html

相关文章：

【FastAPI】--基础教程

使用compressorjs实现前端图片压缩

文章记单词 | 第106篇（六级）

提高 Maven 项目的编译效率

苍穹外卖day1实战，Idea中Lombok编译时“找不到符号”，更改JDK版本最全流程，作者亲身尝试

【JavaScript篇】对象武林：构造函数创世录与实例江湖风云

大型多模态推理模型技术演进综述：从模块化架构到原生推理能力的综合分析

锐化算子构建方法（机翻）

皮尔森电流互感器测试浪涌电流时的一些典型问题

【AS32X601驱动系列教程】GPIO_按键检测详解

HJ106 字符逆序【牛客网】

vue3自定义指令来实现 v-copy 功能

Systemd服务重启策略详解：on-failure与相关配置

互联网大厂Java求职面试：Spring Cloud微服务架构设计中的挑战与解决方案

通义千问的视觉识别技术和特点

7.6/Q1，GBD数据库最新文章解读

【小程序】手机号快速验证组件如何使用对公转账方式

Redis7 新增数据结构深度解析：ListPack 的革新与优化

全志F1c200开发笔记——移植根文件系统

系分论文《论软件系统的安全性测试方法》

一次复杂接口故障的抓包全过程：四款工具协同作战实录（含 Charles）

初识C++：模版

文献阅读——NeuroBayesSLAM

vue中v-clock指令

ROS2学习（9）------ROS2动作

不使用SOAP,从PDF表单连接数据库

Selenium 测试框架 - Java

什么是nginx的异步非阻塞

FFTW图像处理之频域滤波和频域分析

[特殊字符] 在线音频剪辑网站上线啦！