PDF 处理指南
概述
本指南介绍使用 Python 库与命令行进行 PDF 处理的常用操作。高级功能、JavaScript 库与填表流程见原技能 reference.md / forms.md。
快速开始
from pypdf import PdfReader, PdfWriter
reader = PdfReader("document.pdf")
print(f"Pages: {len(reader.pages)}")
text = ""
for page in reader.pages:
text += page.extract_text()
Python 库
pypdf:基础操作
合并:PdfWriter 循环读入多个 PDF,add_page 后 write 输出。
拆分:遍历 reader.pages,每页单独 PdfWriter 写出。
元数据:reader.metadata(title, author, subject, creator)。
旋转:page.rotate(90) 后写入新 PDF。
pdfplumber:文本与表格提取
- 文本:
pdfplumber.open()遍历pdf.pages,page.extract_text()。 - 表格:
page.extract_tables(),可转DataFrame再导出 Excel。
reportlab:生成 PDF
- 简单:
canvas.Canvas+drawString、line等,最后save。 - 多页/富文本:
SimpleDocTemplate、Paragraph、Spacer、PageBreak,使用getSampleStyleSheet。
何时使用
- 提取 PDF 文本或表格
- 合并、拆分、旋转页面
- 程序化生成 PDF 报告
- 填写或解析 PDF 表单(见 forms.md)
More from kunhai-88/skills
marketing-ideas
需要营销创意、灵感或策略时使用。触发词:marketing ideas、growth ideas、how to market、marketing strategies、marketing tactics、ways to promote、ideas to grow。提供 140 个已验证的营销方法,按类别组织。
31marketing-psychology
将心理学原理、心智模型或行为科学应用于营销时使用。触发词:心理学、心智模型、认知偏差、说服、行为科学、人们为何购买、决策、消费者行为。提供 70+ 面向营销的心智模型。
16agent-browser
浏览器自动化工具,用于网页导航、交互、截图、录制等。当需要自动化浏览器操作、测试网页、抓取网页内容、填写表单、截图、录制视频,或提到「浏览器自动化」「网页测试」「agent-browser」「浏览器操作」时使用。
12supabase-postgres-best-practices
Supabase 出品的 Postgres 性能优化与最佳实践。在编写、评审或优化 Postgres 查询、表结构设计或数据库配置时使用。
10audit-website
使用 squirrelscan CLI(squirrel)对网站进行审计,覆盖 SEO、技术、内容、性能、安全等 140+ 规则。当需要分析网站健康、排查技术 SEO、检查死链、校验 meta 与结构化数据、生成站点审计报告、对比改版前后,或提到「网站审计」「audit website」「squirrel」「站点健康检查」时使用。
8better-auth-best-practices
集成 Better Auth(TypeScript 鉴权框架)时使用。支持邮箱密码、OAuth、魔法链接、Passkey 等,通过插件扩展。编写或配置 Better Auth 时触发。
8