跳到内容

安装

要使用 Docling,只需从你的 Python 包管理器(例如 pip)安装 docling

pip install docling

支持 macOS、Linux 和 Windows 系统,以及 x86_64 和 arm64 架构。

其他 PyTorch 分发版本

Docling 模型依赖于 PyTorch 库。根据你的架构,你可能需要使用不同的 torch 分发版本。例如,你可能需要支持不同的加速器或仅支持 CPU 的版本。所有安装 torch 的不同方式都列在其网站上 https://pytorch.ac.cn/

一种常见情况是在仅支持 CPU 的 Linux 系统上安装。在这种情况下,我们建议使用以下选项安装 Docling

# Example for installing on the Linux cpu-only version
pip install docling --extra-index-url https://download.pytorch.org/whl/cpu
其他 OCR 引擎

Docling 支持多种 OCR 引擎用于处理扫描文档。当前版本提供以下引擎。

引擎 安装 使用
EasyOCR Docling 中的默认选项,或通过 pip install easyocr 安装。 EasyOcrOptions
Tesseract 系统依赖。请参阅下方关于 Tesseract 和 Tesserocr 的描述。 TesseractOcrOptions
Tesseract CLI 系统依赖。请参阅下方描述。 TesseractCliOcrOptions
OcrMac 系统依赖。请参阅下方描述。 OcrMacOptions
RapidOCR 默认 Docling 安装中未包含的额外功能可通过 pip install rapidocr_onnxruntime 安装 RapidOcrOptions
OnnxTR 可通过插件系统安装 pip install "docling-ocr-onnxtr[cpu]"。请参阅 docling-OCR-OnnxTR OnnxtrOcrOptions

Docling 的 DocumentConverter 允许使用 ocr_options 设置选择 OCR 引擎。例如

from docling.datamodel.base_models import ConversionStatus, PipelineOptions
from docling.datamodel.pipeline_options import PipelineOptions, EasyOcrOptions, TesseractOcrOptions
from docling.document_converter import DocumentConverter

pipeline_options = PipelineOptions()
pipeline_options.do_ocr = True
pipeline_options.ocr_options = TesseractOcrOptions()  # Use Tesseract

doc_converter = DocumentConverter(
    pipeline_options=pipeline_options,
)

Tesseract 安装

Tesseract 是一个流行的 OCR 引擎,可在大多数操作系统上使用。要在 Docling 中使用此引擎,必须使用您选择的打包工具在您的系统上安装 Tesseract。下面我们提供示例命令。安装 Tesseract 后,您需要使用 TESSDATA_PREFIX 环境变量提供其语言文件的路径(请注意,它必须以斜杠 / 结尾)。

brew install tesseract leptonica pkg-config
TESSDATA_PREFIX=/opt/homebrew/share/tessdata/
echo "Set TESSDATA_PREFIX=${TESSDATA_PREFIX}"
apt-get install tesseract-ocr tesseract-ocr-eng libtesseract-dev libleptonica-dev pkg-config
TESSDATA_PREFIX=$(dpkg -L tesseract-ocr-eng | grep tessdata$)
echo "Set TESSDATA_PREFIX=${TESSDATA_PREFIX}"
dnf install tesseract tesseract-devel tesseract-langpack-eng leptonica-devel
TESSDATA_PREFIX=/usr/share/tesseract/tessdata/
echo "Set TESSDATA_PREFIX=${TESSDATA_PREFIX}"

链接到 Tesseract

使用 Tesseract 库最有效的方式是通过链接。Docling 使用 Tesserocr 包来实现此功能。

如果您在安装 Tesserocr 时遇到问题,我们建议使用以下安装选项

pip uninstall tesserocr
pip install --no-binary :all: tesserocr

ocrmac 安装

ocrmac 使用 Apple 的 vision(或 livetext)框架作为 OCR 后端。要在 Docling 中使用此引擎,必须在您的系统上安装 ocrmac。这仅适用于 macOS 版本较新 (10.15+) 的 macOS 系统。

pip install ocrmac
在 macOS Intel (x86_64) 上的安装

在配备 Intel 处理器的 macOS 上安装 Docling 时,您可能会遇到 PyTorch 兼容性错误。这是因为较新的 PyTorch 版本 (2.6.0+) 不再提供适用于基于 Intel 的 Mac 的 wheel 文件。

如果您使用的是 Intel Mac,请安装兼容的 PyTorch 版本 Docling。注意: PyTorch 2.2.2 需要 Python 3.12 或更低版本。请确保您没有使用 Python 3.13+。

# For uv users
uv add torch==2.2.2 torchvision==0.17.2 docling

# For pip users
pip install "docling[mac_intel]"

# For Poetry users
poetry add docling

开发环境设置

要开发 Docling 功能、修复错误等,请从您的本地克隆根目录按如下方式安装

poetry install --all-extras