安装
要使用 Docling,只需从你的 Python 包管理器(例如 pip)安装 docling
pip install docling
支持 macOS、Linux 和 Windows 系统,以及 x86_64 和 arm64 架构。
其他 PyTorch 分发版本
Docling 模型依赖于 PyTorch 库。根据你的架构,你可能需要使用不同的 torch
分发版本。例如,你可能需要支持不同的加速器或仅支持 CPU 的版本。所有安装 torch
的不同方式都列在其网站上 https://pytorch.ac.cn/。
一种常见情况是在仅支持 CPU 的 Linux 系统上安装。在这种情况下,我们建议使用以下选项安装 Docling
# Example for installing on the Linux cpu-only version
pip install docling --extra-index-url https://download.pytorch.org/whl/cpu
其他 OCR 引擎
Docling 支持多种 OCR 引擎用于处理扫描文档。当前版本提供以下引擎。
引擎 | 安装 | 使用 |
---|---|---|
EasyOCR | Docling 中的默认选项,或通过 pip install easyocr 安装。 |
EasyOcrOptions |
Tesseract | 系统依赖。请参阅下方关于 Tesseract 和 Tesserocr 的描述。 | TesseractOcrOptions |
Tesseract CLI | 系统依赖。请参阅下方描述。 | TesseractCliOcrOptions |
OcrMac | 系统依赖。请参阅下方描述。 | OcrMacOptions |
RapidOCR | 默认 Docling 安装中未包含的额外功能可通过 pip install rapidocr_onnxruntime 安装 |
RapidOcrOptions |
OnnxTR | 可通过插件系统安装 pip install "docling-ocr-onnxtr[cpu]" 。请参阅 docling-OCR-OnnxTR。 |
OnnxtrOcrOptions |
Docling 的 DocumentConverter
允许使用 ocr_options
设置选择 OCR 引擎。例如
from docling.datamodel.base_models import ConversionStatus, PipelineOptions
from docling.datamodel.pipeline_options import PipelineOptions, EasyOcrOptions, TesseractOcrOptions
from docling.document_converter import DocumentConverter
pipeline_options = PipelineOptions()
pipeline_options.do_ocr = True
pipeline_options.ocr_options = TesseractOcrOptions() # Use Tesseract
doc_converter = DocumentConverter(
pipeline_options=pipeline_options,
)
Tesseract 安装
Tesseract 是一个流行的 OCR 引擎,可在大多数操作系统上使用。要在 Docling 中使用此引擎,必须使用您选择的打包工具在您的系统上安装 Tesseract。下面我们提供示例命令。安装 Tesseract 后,您需要使用 TESSDATA_PREFIX
环境变量提供其语言文件的路径(请注意,它必须以斜杠 /
结尾)。
brew install tesseract leptonica pkg-config
TESSDATA_PREFIX=/opt/homebrew/share/tessdata/
echo "Set TESSDATA_PREFIX=${TESSDATA_PREFIX}"
apt-get install tesseract-ocr tesseract-ocr-eng libtesseract-dev libleptonica-dev pkg-config
TESSDATA_PREFIX=$(dpkg -L tesseract-ocr-eng | grep tessdata$)
echo "Set TESSDATA_PREFIX=${TESSDATA_PREFIX}"
dnf install tesseract tesseract-devel tesseract-langpack-eng leptonica-devel
TESSDATA_PREFIX=/usr/share/tesseract/tessdata/
echo "Set TESSDATA_PREFIX=${TESSDATA_PREFIX}"
链接到 Tesseract
使用 Tesseract 库最有效的方式是通过链接。Docling 使用 Tesserocr 包来实现此功能。如果您在安装 Tesserocr 时遇到问题,我们建议使用以下安装选项
pip uninstall tesserocr
pip install --no-binary :all: tesserocr
ocrmac 安装
ocrmac 使用 Apple 的 vision(或 livetext)框架作为 OCR 后端。要在 Docling 中使用此引擎,必须在您的系统上安装 ocrmac。这仅适用于 macOS 版本较新 (10.15+) 的 macOS 系统。
pip install ocrmac
在 macOS Intel (x86_64) 上的安装
在配备 Intel 处理器的 macOS 上安装 Docling 时,您可能会遇到 PyTorch 兼容性错误。这是因为较新的 PyTorch 版本 (2.6.0+) 不再提供适用于基于 Intel 的 Mac 的 wheel 文件。
如果您使用的是 Intel Mac,请安装兼容的 PyTorch 版本 Docling。注意: PyTorch 2.2.2 需要 Python 3.12 或更低版本。请确保您没有使用 Python 3.13+。
# For uv users
uv add torch==2.2.2 torchvision==0.17.2 docling
# For pip users
pip install "docling[mac_intel]"
# For Poetry users
poetry add docling
开发环境设置
要开发 Docling 功能、修复错误等,请从您的本地克隆根目录按如下方式安装
poetry install --all-extras