当前位置: 首页 > backend >正文

springboot生成pdf方案之dot/html/图片转pdf三种方式

文章目录

  • pdf生成方案
    • dot转pdf
    • html转pdf
      • openhtmltopdf
      • aspose-pdf
        • 实践
      • playwright
        • 实践
    • 图片转pdf
      • Apache PDFBox实践
  • 框架场景匹配
  • 后记

    前言:随着客户对报告审美的提升,需求也越来越五彩斑斓~ 原有的dot模板已经满足不了他们了!这篇文章主打列出各种方案及适用场景,带部分demo。

pdf生成方案

dot转pdf

自定义.dot文档,模板中插入书签占位,使用aspose-words转换为pdf
ps:这个收费=_=|| 公司之前有项目用了,所以没探索其他实现方案

html转pdf

探索了三个框架,openhtmltopdfaspose-pdfflying-saucer-pdf-openpdf,下面分别对这些方案进行描述。

openhtmltopdf

源码地址

明晃晃的优点:

  1. 开源&&免费

但有两个不得不忽视的缺点:

  1. 中文乱码,官网issue中有人提单了含有中文字符的html输出pdf有乱码 #129
    ,按照解决方案并不能修复,所以block了
  2. 仅仅支持简单的CSS

aspose-pdf

官网:Creating a complex PDF,虽然和aspose-words都是aspose家的,但他们分开收费!!!
优点:

  1. 内置14种字体 - 中文支持度非常高
  2. 支持加密/解密、数字签名、权限控制
  3. 文档完善、社区活跃度高

缺点:

  1. 贵!!!经费不足不考虑
  2. 对CSS3中部分样式不支持,例如aspect-ratio,需要后端一点点排查再让前端调整。。。 (太难了)
实践

注意: 这个库不是在maven中央仓库中管理,需要加一个仓库配置https://releases.aspose.com/java/repo/

<dependency><groupId>com.aspose</groupId><artifactId>aspose-pdf</artifactId><version>23.6</version>
</dependency>
import com.aspose.pdf.Document;
import com.aspose.pdf.HtmlLoadOptions;
import com.aspose.pdf.SaveFormat;public void generatePdf(String name) {	// 1. 准备数据模型Map<String, Object> data = new HashMap<>();data.put("name", name);data.put("date", LocalDate.now().toString());String html = freeMarkerService.getTemplate2String("report.ftl", data);try (FileOutputStream fileOutputStream = new FileOutputStream("E:\\test\\report.pdf");InputStream stream = new ByteArrayInputStream(html.getBytes("UTF-8"));) {// 加载静态资源HtmlLoadOptions loadOptions = new HtmlLoadOptions("src/main/resources/static/report");loadOptions.setEmbedFonts(true);Document document = new Document(stream, loadOptions);document.save(fileOutputStream, SaveFormat.Pdf);} catch (Exception e) {log.error("[generatePdf] html转pdf失败", e);}
}

playwright

由前端提供的html文件,里面包含的CSS样式太复杂了,没办法只能用webkit这种方式渲染样式才不会有大的偏差~
优点:

  1. 渲染质量ok,基本上和html展示一致
  2. 开源免费
  3. 跨平台支持,docker中也可运行

缺点:

  1. 初次运行要下载浏览器
  2. 资源消耗大,每个转换需要100-300M内存
  3. Java版是对Node.js版的封装
实践

maven

<dependency><groupId>com.microsoft.playwright</groupId><artifactId>playwright</artifactId><version>1.52.0</version>
</dependency>

业务代码(强制将输出A4纸张大小):

package com.lizzy.mp.service;import java.io.FileOutputStream;
import java.time.LocalDate;
import java.util.HashMap;
import java.util.Map;
import java.util.stream.Collectors;
import java.util.stream.Stream;import javax.annotation.PostConstruct;
import javax.annotation.PreDestroy;
import javax.annotation.Resource;import org.springframework.stereotype.Service;import com.microsoft.playwright.Browser;
import com.microsoft.playwright.BrowserType;
import com.microsoft.playwright.Page;
import com.microsoft.playwright.Playwright;
import com.microsoft.playwright.options.Margin;import lombok.extern.slf4j.Slf4j;@Service
@Slf4j
public class PlaywrightPdfService {@Resourceprivate FreeMarkerService freeMarkerService;private Playwright playwright;private Browser browser;@PostConstructpublic void init() {playwright = Playwright.create();browser = playwright.chromium().launch(new BrowserType.LaunchOptions().setHeadless(true).setArgs(Stream.of("--disable-dev-shm-usage").collect(Collectors.toList())));}public void generatePdf(String name) {// 1. 准备数据模型Map<String, Object> data = new HashMap<>();data.put("name", name);data.put("date", LocalDate.now().toString());String htmlContent = freeMarkerService.getTemplate2String("report2.ftl", data);try (Page page = browser.newPage();FileOutputStream fileOutputStream = new FileOutputStream("E:\\test\\report.pdf");) {page.setContent(htmlContent);byte[] bytes = page.pdf(new Page.PdfOptions().setMargin(new Margin().setTop("0cm").setBottom("0cm").setLeft("0cm").setRight("0cm")).setPrintBackground(true).setFormat("A4"));fileOutputStream.write(bytes);} catch (Exception e) {log.error("[generatePdf] HTML转PDF失败", e);}log.info("[generatePdf] HTML转PDF成功");}@PreDestroypublic void cleanup() {if (browser != null) {browser.close();}if (playwright != null) {playwright.close();}}
}

图片转pdf

      项目中前后端共用一个html模板,前端会有预览功能,于是乎讨论出一个方案:前端直接将html生成图片,后端将图片转成pdf,这样后端就不用care样式问题了!
      网上解决方案很多,作者只调研了Apache PDFBox。

Apache PDFBox实践

maven:

<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>3.0.3</version>
</dependency>

业务代码,说明:

  • 方法convert中生成的pdf打开后50%展示都很大
  • 方法convertForA4中进行了限制,打开后100%还原
    ps:最根本的解决方法还是控制css样式为A4
package com.lizzy.mp.service;import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;import javax.imageio.ImageIO;import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDPageContentStream;
import org.apache.pdfbox.pdmodel.common.PDRectangle;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;
import org.springframework.stereotype.Service;import lombok.extern.slf4j.Slf4j;@Service
@Slf4j
public class Image2PdfService {public void convert() {// 创建PDF文档try (PDDocument document = new PDDocument()) {// 加载图片PDImageXObject pdImage = PDImageXObject.createFromFile("E:\\report_page-0001.jpg", document);// 创建页面,大小与图片相同PDPage page = new PDPage(new PDRectangle(pdImage.getWidth(), pdImage.getHeight()));document.addPage(page);// 将图片写入PDFtry (PDPageContentStream contentStream = new PDPageContentStream(document, page)) {contentStream.drawImage(pdImage, 0, 0);}// 保存PDFdocument.save("E:\\test\\report0.pdf");} catch (IOException e) {log.error("[convert] 图片转pdf失败,错误原因:{}", e.getMessage(), e);}}public void convertForA4() {String imagePath = "E:\\report_page-0001.jpg";String outputPdfPath = "E:\\test\\report0.pdf";try (PDDocument document = new PDDocument()) {// 读取图片BufferedImage image = ImageIO.read(new File(imagePath));if (image == null) throw new IOException("无法读取图片");PDImageXObject pdImage = PDImageXObject.createFromFile(imagePath, document);// 创建A4页面PDRectangle a4 = PDRectangle.A4;PDPage page = new PDPage(a4);document.addPage(page);// 原始图片尺寸float imageWidth = image.getWidth();float imageHeight = image.getHeight();// A4尺寸float pageWidth = a4.getWidth();float pageHeight = a4.getHeight();// 缩放比例(等比缩放)float scale = Math.min(pageWidth / imageWidth, pageHeight / imageHeight);float drawWidth = imageWidth * scale;float drawHeight = imageHeight * scale;// 居中坐标float x = (pageWidth - drawWidth) / 2;float y = (pageHeight - drawHeight) / 2;// 写入图像try (PDPageContentStream contentStream = new PDPageContentStream(document, page)) {contentStream.drawImage(pdImage, x, y, drawWidth, drawHeight);}// 保存PDFdocument.save(outputPdfPath);} catch (IOException e) {System.err.println("图片转PDF失败: " + e.getMessage());e.printStackTrace();}}
}

框架场景匹配

框架名称CSS样式支持度是否开源中文支持使用难易体积大小说明
Aspose.word中等❌,收费高
试用版有水印
简单50+MB
Aspose.pdfCSS3(动画等不支持)❌,收费高
试用版有水印
中等
openhtmltopdfCSS2.1(基本支持)需显示引入字体简单小,3~5MB
playwright非常高浏览器原生支持需运行浏览器依赖大,依赖Chromium
apache pdfbox----只使用图像转pdf,无需控制样式

后记

因项目背景,对报告pdf的生成要求蛮高,所以得不停尝试各种解决方案,推荐获取思路的网址~

  • 想找个生成PDF的库或者解决方案,不要Aspose的(from www.reddit.com),虽是C#解决方案,但道理相通
  • Pdf generation(from www.reddit.com)

ps:思考要记录,不然会忘记~

http://www.xdnf.cn/news/15170.html

相关文章:

  • PDF 转图助手 PDF2JPG 绿色版:免安装直接用,急处理文件的救急小天使
  • 技术突破与落地应用:端到端 2.0 时代辅助驾驶TOP10 论文深度拆解系列【第九篇(排名不分先后)】
  • GPT和MBR分区
  • 云蝠智能 VoiceAgent重构企业呼入场景服务范式
  • 重学前端004 --- html 表单
  • 从二维到三维:数字孪生如何重塑UI前端设计
  • 【Git】git的回退功能
  • Flutter优缺点
  • 港科大 NMPC 控制下的高效自主导航!SkyVLN:城市环境无人机视觉语言导航与非线性模型预测控制
  • 哪些因素会影响NMR杂质检测的准确性
  • 全面掌控 Claude Code:命令 + 参数 + 快捷键一文全整理(建议收藏)
  • Linux的基础I/O
  • 如何在 PyCharm 批量调整代码缩进?PyCharm 调整代码格式化和代码缩进的快捷键有哪些?
  • S7-1200 与 S7-300 CPS7-400 CP UDP 通信 Step7 项目编程
  • 最常用的JS加解密场景MD5
  • Vue 3 入门——自学习版本
  • 分布式推客系统全栈开发指南:SpringCloud+Neo4j+Redis实战解析
  • C#事件:从原理到实践的深度剖析
  • 微软语音合成标记语言SSML文档结构和事件(详细文档和实例)
  • 基于Python的豆瓣图书数据分析与可视化系统【自动采集、海量数据集、多维度分析、机器学习】
  • Ubuntu20.04运行openmvg和openmvs实现三维重建(未成功,仅供参考)
  • AI金融风控:识别欺诈,量化风险的新利器
  • 批量合并全国地理信息资源目录服务系统下载的全国基础地理数据
  • JAVA JVM垃圾收集
  • JavaScript 异步编程指南:async/await 与 Promise 该怎么选?
  • 中国银联豪掷1亿采购海光C86架构服务器
  • 第十五章 STL(stack、queue、list、set、map容器使用)
  • 基于Selenium和FFmpeg的全平台短视频自动化发布系统
  • Linux小白学习基础内容
  • 反向传播notes