当前位置: 首页 > web >正文

字节开源多模态文档图像解析模型:Dolphin

Dolphin:Document Image Parsing via Heterogeneous Anchor Prompting

一、论文简介

Dolphin 是一种新颖的多模态文档图像解析模型,采用 “先分析后解析” 的范式。它旨在应对文档理解中文字段落、图表、公式、表格等复杂交织元素带来的挑战,通过两阶段方法来处理。

二、模型方法

  1. 第一阶段 :对页面进行全局布局分析,生成符合自然阅读顺序的元素序列。

  2. 第二阶段 :利用异构锚点和任务特定提示,并行高效地解析文档元素。

三、模型架构

Dolphin 基于视觉编码器 - 解码器架构,使用变换器构建。

  • 视觉编码器 :基于 Swin 变换器,用于从文档图像中提取视觉特征。

  • 文本解码器 :基于 MBart,用于从视觉特征中解码文本。

  • 基于提示的接口 :使用自然语言提示来控制解析任务,作为 Hugging Face VisionEncoderDecoderModel 实现,便于与 Transformer 生态系统集成。

四、使用方式

即将发布演示,可通过其 GitHub 仓库查看详细使用说明。支持页面级解析和元素级解析,包括对整个文档图像的解析以及对段落、表格、公式等单个元素图像的解析。

五、开源许可

该模型遵循 MIT 许可证发布。

核心技术总结如下:
在这里插入图片描述

http://www.xdnf.cn/news/8501.html

相关文章:

  • 【FastAPI】--基础教程
  • 使用compressorjs实现前端图片压缩
  • 文章记单词 | 第106篇(六级)
  • 提高 Maven 项目的编译效率
  • 苍穹外卖day1实战,Idea中Lombok编译时“找不到符号”,更改JDK版本最全流程,作者亲身尝试
  • 【JavaScript篇】对象武林:构造函数创世录与实例江湖风云
  • 大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
  • 锐化算子构建方法(机翻)
  • 皮尔森电流互感器测试浪涌电流时的一些典型问题
  • 【AS32X601驱动系列教程】GPIO_按键检测详解
  • HJ106 字符逆序【牛客网】
  • vue3自定义指令来实现 v-copy 功能
  • Systemd服务重启策略详解:on-failure与相关配置
  • 互联网大厂Java求职面试:Spring Cloud微服务架构设计中的挑战与解决方案
  • 通义千问的视觉识别技术和特点
  • 7.6/Q1,GBD数据库最新文章解读
  • 【小程序】手机号快速验证组件如何使用对公转账方式
  • Redis7 新增数据结构深度解析:ListPack 的革新与优化
  • 全志F1c200开发笔记——移植根文件系统
  • 系分论文《论软件系统的安全性测试方法》
  • 一次复杂接口故障的抓包全过程:四款工具协同作战实录(含 Charles)
  • 初识C++:模版
  • 文献阅读——NeuroBayesSLAM
  • vue中v-clock指令
  • ROS2学习(9)------ROS2动作
  • 不使用SOAP,从PDF表单连接数据库
  • Selenium 测试框架 - Java
  • 什么是nginx的异步非阻塞
  • FFTW图像处理之频域滤波和频域分析
  • [特殊字符] 在线音频剪辑网站上线啦!