支持的格式
Docling可以将各种文档格式解析为统一的表示形式 (Docling文档),也可以将其导出为不同的格式 — 请查看架构了解更多详情。
您可以在下方找到所有支持的输入和输出格式列表。
支持的输入格式
格式 | 描述 |
---|---|
DOCX, XLSX, PPTX | MS Office 2007+中的默认格式,基于Office Open XML |
Markdown | |
AsciiDoc | |
HTML, XHTML | |
CSV | |
PNG, JPEG, TIFF, BMP, WEBP | 图像格式 |
特定模式支持
格式 | 描述 |
---|---|
USPTO XML | USPTO专利所遵循的XML格式 (参考USPTO) |
JATS XML | JATS文章所遵循的XML格式 (参考JATS) |
Docling JSON | JSON序列化的Docling文档 |
支持的输出格式
格式 | 描述 |
---|---|
HTML | 支持图片嵌入和引用 |
Markdown | |
JSON | Docling文档的无损序列化 |
文本 | 纯文本,即不含Markdown标记 |
Doctags |