Fitz是一款开源的PDF处理工具,它是由MuPDF开发团队开发的一款软件包。Fitz提供了很多PDF操作的功能,包括浏览、渲染、翻转、裁剪、旋转、缩放、剪切、粘贴、合并等等。此外,Fitz还支持多种操作系统平台,如Windows、Linux、macOS等。
Fitz处理PDF的过程主要包括以下几个方面:
阅读PDF文件:Fitz可以打开PDF文件并进行浏览。
渲染PDF页面:Fitz能够在屏幕上显示PDF页面,并进行渲染。
处理PDF元素:Fitz可以对PDF中的各种元素进行处理,比如文本、图像、表格等等。
编辑PDF内容:Fitz可以对PDF内容进行编辑,包括添加、删除、修改等操作。
转换PDF格式:Fitz可以将PDF文件转换成其他格式,比如图片、HTML等。
提取PDF大纲源码实例
from typing import Dict
import fitz # pip install pymupdf
def get_bookmarks(filepath: str) -> Dict[int, str]:
# WARNING! One page can have multiple bookmarks!
bookmarks = {}
with fitz.open(filepath) as doc:
toc = doc.get_toc() # [[lvl, title, page, …], …]
for level, title, page in toc:
bookmarks[page] = title
# if level == 1:
print(title)
return bookmarks
get_bookmarks("/Users/test.PDF")