Python库实现PDF转HTML方法,可以提取目录TOC

Python中,要识别PDF中的目录(Table of Contents, TOC),通常有两种场景:


直接提取pdf内置的书签(Bookmarks):如果pdf本身带有目录书签(例如电子书、技术文档),可以直接提取。


自动分析文本结构推断目录:如果PDF没有书签,需要通过文本模式、标题层级或排版特征(如页码、缩进)来识别目录。


以下是针对这两种场景的解决方案和库推荐:


一、提取PDF内置书签(推荐方案)

如果PDF本身包含目录书签(通过阅读器可展开的导航栏),可以使用以下库直接提取:


1. PyMuPDF (fitz)

PyMuPDF 能直接读取PDF的书签信息,适合快速提取目录结构:

import fitz

def extract_toc(pdf_path):
    doc = fitz.open(pdf_path)
    toc = doc.get_toc()  # 返回一个列表,每个元素是 [层级, 标题, 页码, ...]
    return toc

# 示例输出:
# [
#   [1, "ChAPter 1", 1],
#   [1, "Chapter 2", 5],
#   [2, "Section 2.1", 6],
#   ...
# ]

2. pikepdf

另一个支持提取书签的库,适合需要更复杂操作的场景:

from pikepdf import Pdf

with Pdf.open('input.pdf') as pdf:
    if '/Outlines' in pdf.Root:  # 检查是否存在书签
        outlines = pdf.Root.Outlines
        for item in outlines:
            print(item.Title, item.Dest[0].objgen)  # 标题和页码(需进一步解析)

二、自动分析文本结构推断目录

如果PDF没有内置书签,需要通过分析文本内容识别目录。这通常需要结合规则(如正则表达式匹配章节标题和页码)或机器学习模型。


1. pdfplumber(基于规则)

通过文本位置、字体大小和正则表达式匹配目录条目:

import pdfplumber
import re

def infer_toc(pdf_path):
    toc = []
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            text = page.extract_text()
            # 匹配类似 "Chapter 1 ...... 1" 的目录条目
            matches = re.findall(r'(.*?)\s+\.+\s+(\d+)', text)
            for title, page_num in matches:
                toc.append({"title": title.strip(), "page": int(page_num)})
    return toc

2. pdftotree(结构化解析)

使用机器学习模型解析PDF的层级结构,可能识别标题:

import pdftotree

# 转换PDF为html树,再通过xpath提取标题
pdftotree.convert('input.pdf', 'output.html')

# 手动分析output.html中的<h1>, <h2>标签或特定class



3. LayoutParser(复杂版面分析)

结合深度学习模型检测标题区域:

import layoutparser as lp

model = lp.Detectron2LayoutModel('lp://PrimaLayout/mask_rcnn_R_50_FPN_3x/config')
pdf_image = np.array(...)  # 将PDF页面转为图像
layout = model.detect(pdf_image)
# 筛选可能是标题的区块(需自定义规则)

三、推荐方案

如果PDF有内置书签:直接用 PyMuPDF 的 get_toc(),简单高效。


无书签需推断目录:


简单场景:用 pdfplumber + 正则表达式。


复杂场景:结合 LayoutParser 或 pdftotree 分析版面层级。


四、注意事项

准确性:无书签的目录识别依赖PDF的排版规范性,复杂文档(如多栏、图表混杂)可能需要定制规则。


页码偏移:PDF页码可能与实际物理页码不同(如封面不计入页码),需注意调整。


OCR需求:扫描版PDF需先用OCR工具(如Tesseract)提取文本。


如果需要全自动化工具,可以尝试集成 GROBID(Java库,通过API调用),它专用于学术文档的结构化解析,支持目录提取。


相关阅读

添加新评论