当前位置: 首页 > ds >正文

用python清除PDF文件中的水印(Adobe Acrobat 无法删除)

学校老师发的资料,有时候会带水印,有点强迫症的都想给它去掉。用Adobe Acrobat试了下,检测不到水印,无法删除!分析发现原来这类PDF文件是用word编辑的,其中的水印是加在了页眉中!

自己动手想办法搞定它。

"""
Title: 清除PDF水印(非pdf加的水印而是用word文件头加的然后转成了pdf)
Author: JackieZheng
Date: 2025-05-11 10:31:23
LastEditTime: 2025-05-12 23:43:21
LastEditors: Please set LastEditors
Description:
FilePath: \\pythonCode\\remove_pdf_watermark.py
"""import os
import fitz  # PyMuPDFdef remove_image_watermark(pdf_path):doc = fitz.open(pdf_path)for page_num in range(len(doc)):page = doc[page_num]xref = page.get_contents()[0]  # 获取页面字节流,以xref的形式返回cont0 = doc.xref_stream(xref).decode()  # 将流解码为字符串page.clean_contents()if '/Header>> BDC' in cont0:  # 找到word页眉总分start_str = '/Header>> BDC'  # 获取水印起始位置end_str = 'c\r\nh\r\nf*\r\nq'  # 获取水印结束位置 (需要自己根据情况找到类似字符)cont = remove_between_strings(cont0, start_str, end_str)doc.update_stream(xref, cont.encode())  # 更新流print('page', page_num, 'processed')doc.save(pdf_path[:-4] + '_processed.pdf')doc.close()def remove_between_strings(original_text, start_str, end_str):start = original_text.index(start_str) + len(start_str)end = original_text.index(end_str, start)content = original_text[:start] + original_text[end:]# print(content)return contentpdf_path = r'C:\Users\JackieZheng\Desktop\满分冲刺练.pdf'remove_image_watermark(pdf_path)

操作原理:把文件解码为字符串,分析找出水印部分内容,从中剔除掉即可。

前后效果对比:

http://www.xdnf.cn/news/5731.html

相关文章:

  • 机架式服务器是什么?机架式/塔式/刀片式三大服务器类型区别与选型全解析
  • vue3+flask+sqlite前后端项目实战
  • 谱聚类,大模型
  • uniapp 复刻 keep 跑步运动轨迹 (获取当前经纬度信息)
  • Java实现MCP server,配合DeepSeek和达梦数据库,实现基于企业数据库的智能问答
  • 在Windows 境下,将Redis和Nginx注册为服务。
  • uniapp使用npm下载
  • 《数字人 :生成之旅》
  • 第二十五节:轮廓检测-轮廓特征 (面积、周长、边界框等)
  • 前端面试宝典---webpack面试题
  • 【Linux】在Arm服务器源码编译onnxruntime-gpu的whl
  • Spring Boot异步任务失效的8大原因及解决方案
  • 四、STM32 HAL库API完全指南:从功能分类到实战示例
  • Hadoop区别
  • Dagster Pipes系列-1:调用外部Python脚本
  • 【CF】Day57——Codeforces Round 955 (Div. 2, with prizes from NEAR!) BCD
  • 利用散点图探索宇航员特征与太空任务之间的关系
  • BUUCTF 大流量分析(三) 1
  • 开源链动2+1模式AI智能名片S2B2C商城小程序赋能新微商服务能力升级研究
  • 主从架构:技术原理与实现
  • python实现usb热插拔检测(linux)
  • 【Nova UI】十三、打造组件库之按钮组件(中):样式雕琢全攻略
  • 【学习笔记】机器学习(Machine Learning) | 第六章(2)| 过拟合问题
  • 编程题 02-线性结构3 Reversing Linked List【PAT】
  • WebFlux vs WebMVC vs Servlet 对比
  • spark的处理过程-转换算子和行动算子
  • Spark,RDD中的转换算子
  • NVMe-oF(NVMe over Fabrics)
  • 车联网大数据:从数据到场景的闭环实践
  • Linux 软件包|服务管理