跳到内容

支持的格式

Docling可以将各种文档格式解析为统一的表示形式 (Docling文档),也可以将其导出为不同的格式 — 请查看架构了解更多详情。

您可以在下方找到所有支持的输入和输出格式列表。

支持的输入格式

格式 描述
PDF
DOCX, XLSX, PPTX MS Office 2007+中的默认格式,基于Office Open XML
Markdown
AsciiDoc
HTML, XHTML
CSV
PNG, JPEG, TIFF, BMP, WEBP 图像格式

特定模式支持

格式 描述
USPTO XML USPTO专利所遵循的XML格式 (参考USPTO)
JATS XML JATS文章所遵循的XML格式 (参考JATS)
Docling JSON JSON序列化的Docling文档

支持的输出格式

格式 描述
HTML 支持图片嵌入和引用
Markdown
JSON Docling文档的无损序列化
文本 纯文本,即不含Markdown标记
Doctags