支持的格式
Docling可以将各种文档格式解析为统一的表示形式 (Docling文档),也可以将其导出为不同的格式 — 请查看架构了解更多详情。
您可以在下方找到所有支持的输入和输出格式列表。
支持的输入格式
| 格式 | 描述 |
|---|---|
| DOCX, XLSX, PPTX | MS Office 2007+中的默认格式,基于Office Open XML |
| Markdown | |
| AsciiDoc | |
| HTML, XHTML | |
| CSV | |
| PNG, JPEG, TIFF, BMP, WEBP | 图像格式 |
特定模式支持
| 格式 | 描述 |
|---|---|
| USPTO XML | USPTO专利所遵循的XML格式 (参考USPTO) |
| JATS XML | JATS文章所遵循的XML格式 (参考JATS) |
| Docling JSON | JSON序列化的Docling文档 |
支持的输出格式
| 格式 | 描述 |
|---|---|
| HTML | 支持图片嵌入和引用 |
| Markdown | |
| JSON | Docling文档的无损序列化 |
| 文本 | 纯文本,即不含Markdown标记 |
| Doctags |