当前位置: 首页 > java >正文

C++使用PoDoFo库处理PDF文件

📚 PoDoFo 简介

PoDoFo 是一个用 C++ 编写的自由开源库,专用于 读取、写入和操作 PDF 文件。它适用于需要程序化处理 PDF 文件的应用程序,比如批量生成、修改、合并、提取元数据、绘图等。
在这里插入图片描述

🌟 核心特点

特性说明
📄 PDF 读取支持加载 PDF,读取内容流、页数、对象、元数据等
✍️ PDF 写入可创建新 PDF,添加页、文本、图片、绘图操作
📌 PDF 编辑可访问并修改 PDF 内部结构,如对象树
🔐 加密支持支持基本加密(RC4、标准 PDF 加密),但支持有限
📦 轻量依赖只依赖标准 C++ 和一些通用库(如 zlib、freetype、libjpeg)

🏗️ 技术基础

  • 语言:C++
  • 授权协议:LGPL
  • 平台:Linux / Windows / macOS
  • 主要头文件#include <podofo/podofo.h>

📦 常见用途

  1. 批量生成 PDF 报告
  2. 批量提取页数、作者、标题等元数据
  3. 根据程序逻辑创建图形、表格型 PDF
  4. 读取 PDF 对象结构进行分析或修改

⚠️ 局限性

  • 不支持 PDF 渲染(不能直接显示或截图)
  • 对于复杂加密和 PDF/A 等标准支持有限
  • 文档和社区相对较小,不如 poppler 丰富

📌 官方地址

  • GitHub 镜像(非官方): https://github.com/podofo/podofo
  • 官方网站(较旧): http://podofo.sourceforge.net/

1、安装podofo

方式1:apt安装

sudo apt install libpodofo-dev
# 确认是否安装成功
dpkg -LA libpodofo-dev

出现类似这样的路径说明没问题。
在这里插入图片描述

方式2:源码安装

git clone https://github.com/podofo/podofo.git
cd podofo
mkdir build && cd build
cmake ..
make
sudo make install

2、示例代码

下面是一个使用PoDoFo库来过滤PDF文件的示例代码。假设我们有一个目录,里面包含多个PDF文件,我们想根据某些条件(比如页数)来过滤这些文件。

2.1 main.cpp

#include <podofo/podofo.h>
#include <iostream>
#include <filesystem>
#include <vector>namespace fs = std::filesystem;void FilterPDFs(const std::string& directory, int minPages) {std::vector<std::string> filteredFiles;for (const auto& entry : fs::directory_iterator(directory)) {if (entry.is_regular_file() && entry.path().extension() == ".pdf") {try {PoDoFo::PdfMemDocument document;// std::cout<<entry.path().string()<<std::endl;document.Load(entry.path().c_str());// 获取PDF文件的页数int numPages = document.GetPageCount();if (numPages >= minPages) {filteredFiles.push_back(entry.path().string());}} catch (const PoDoFo::PdfError& e) {std::cerr << "Error processing file " << entry.path().string() << ": " << e.what() << std::endl;}}}// 输出符合条件的PDF文件std::cout << "Filtered PDF files with at least " << minPages << " pages:" << std::endl;for (const auto& file : filteredFiles) {std::cout << file << std::endl;}
}int main() {std::string directory = "/your/pdf/path/";  // 替换为你的PDF文件所在目录int minPages = 5;  // 过滤条件:至少包含5页的PDF文件FilterPDFs(directory, minPages);return 0;
}
  • PoDoFo库:这是一个C++库,用于创建、修改和解析PDF文件。在这个例子中,我们使用它来加载PDF文件并获取其页数。
  • std::filesystem:这是C++17引入的标准库,用于处理文件系统相关的操作,如遍历目录中的文件。
  • FilterPDFs函数:该函数接收一个目录路径和最小页数作为参数,遍历目录中的所有PDF文件,并根据页数进行过滤。
  • 异常处理:在加载PDF文件时可能会出现错误(例如文件损坏),因此我们使用try-catch块来捕获并处理这些错误。

2.2 CMakeLists.txt

# 指定CMake的最低版本要求
cmake_minimum_required(VERSION 3.10)# 定义项目名称和编程语言
project(PdfFilter VERSION 1.0 LANGUAGES CXX)# 设置C++标准 (例如C++17)
set(CMAKE_CXX_STANDARD 17)
set(CMAKE_CXX_STANDARD_REQUIRED True)
set(CMAKE_CXX_EXTENSIONS False)# podofo
find_library(PODOFO_LIBRARY podofo)# 添加可执行文件
add_executable(${PROJECT_NAME} main.cpp)# 如果有第三方库需要链接,可以使用target_link_libraries
target_link_libraries(${PROJECT_NAME} ${PODOFO_LIBRARY})message("🐼 ${PODOFO_LIBRARY}")

2.3 编译运行

  • 编译
mkdir build
cd build
cmake ..
-- The CXX compiler identification is GNU 13.3.0
-- Detecting CXX compiler ABI info
-- Detecting CXX compiler ABI info - done
-- Check for working CXX compiler: /usr/bin/c++ - skipped
-- Detecting CXX compile features
-- Detecting CXX compile features - done
🐼 /usr/lib/libpodofo.so
-- Configuring done (1.4s)
-- Generating done (0.0s)
-- Build files have been written to: /mnt/d/cppworkspace/PDFDemo/build
make
[ 50%] Building CXX object CMakeFiles/PdfFilter.dir/main.cpp.o
[100%] Linking CXX executable PdfFilter
[100%] Built target PdfFilter
  • 运行
./PdfFilter
  • 文件结构
.
|-- main.cpp
|-- CMakeLists.txt
|-- build
|   |-- CMakeCache.txt
|   |-- CMakeFiles
|   |-- Makefile
|   |-- PdfFilter
|   |-- cmake_install.cmake
http://www.xdnf.cn/news/4698.html

相关文章:

  • 计算机网络
  • 【Java ee初阶】初始网络
  • 无实体对话式社交机器人 拟人化印象形成机制:基于多模态交互与文化适配的拓展研究
  • Sui Basecamp 2025 全栈出击
  • 前端-什么是结构语言、样式语言、脚本语言?
  • 【金仓数据库征文】金仓数据库 KES 助力企业数据库迁移的实践路径
  • 学习黑客什么是 ARP
  • Kafka消息队列之 【消费者分组】 详解
  • Windows系统下使用Kafka和Zookeeper,Python运行kafka(二)
  • 量子密码的轻量级通信协议笔记
  • viewDesign里的table内嵌套select动态添加表格行绑定内容丢失
  • DeFi开发系统软件开发:技术架构与生态重构
  • MariaDB 与 MySQL 的关系:从同源到分道扬镳
  • 单体架构实现延时任务
  • WPF实时调试的一种实现方法
  • 聊一聊接口的压力测试如何进行的?
  • 多商户进销存一体化管理,Java+Vue,含源码与文档,高效统筹库存、销售与采购,适配多元商业场景
  • 2.4 点云数据存储格式——轻量文本型存储格式
  • 在一台服务器上通过 Nginx 配置实现不同子域名访问静态文件和后端服务
  • CTF - PWN之ORW记录
  • 全球森林数据如何分析?基于R语言森林生态系统结构、功能与稳定性分析与可视化
  • 一键设置动态域名+ipv6内网直通访问ssh服务-家庭云计算专家
  • 关于 wordpress 统计访问量初始数值错误的解决方法
  • 【Pandas】pandas DataFrame abs
  • 2025年小程序DDoS与CC攻击防御全指南:构建智能安全生态
  • typecho中的Widget设计文档
  • Vscode (Windows端)免密登录linux集群服务器
  • 搭建和优化CI/CD流水线
  • VTK|.obj文件数据处理+Jet/Viridis/CoolToWarm/Grayscale/Rainbow/风格颜色渲染
  • [逆向工程]什么是DLL注入(二十二)