Python提取Pdf文件大纲

2023年 9月 28日 33.8k 0

Fitz是一款开源的PDF处理工具,它是由MuPDF开发团队开发的一款软件包。Fitz提供了很多PDF操作的功能,包括浏览、渲染、翻转、裁剪、旋转、缩放、剪切、粘贴、合并等等。此外,Fitz还支持多种操作系统平台,如Windows、Linux、macOS等。

Fitz处理PDF的过程主要包括以下几个方面:

阅读PDF文件:Fitz可以打开PDF文件并进行浏览。

渲染PDF页面:Fitz能够在屏幕上显示PDF页面,并进行渲染。

处理PDF元素:Fitz可以对PDF中的各种元素进行处理,比如文本、图像、表格等等。

编辑PDF内容:Fitz可以对PDF内容进行编辑,包括添加、删除、修改等操作。

转换PDF格式:Fitz可以将PDF文件转换成其他格式,比如图片、HTML等。

提取PDF大纲源码实例

from typing import Dict

import fitz  # pip install pymupdf


def get_bookmarks(filepath: str) -> Dict[int, str]:
    # WARNING! One page can have multiple bookmarks!
    bookmarks = {}
    with fitz.open(filepath) as doc:
        toc = doc.get_toc()  # [[lvl, title, page, …], …]
        for level, title, page in toc:
            bookmarks[page] = title
            # if level == 1:
            print(title)
    return bookmarks

get_bookmarks("/Users/test.PDF")

相关文章

服务器端口转发,带你了解服务器端口转发
服务器开放端口,服务器开放端口的步骤
产品推荐:7月受欢迎AI容器镜像来了,有Qwen系列大模型镜像
如何使用 WinGet 下载 Microsoft Store 应用
百度搜索:蓝易云 – 熟悉ubuntu apt-get命令详解
百度搜索:蓝易云 – 域名解析成功但ping不通解决方案

发布评论