跳到内容

Docling

Docling

docling-project/docling

Docling

Docling

Docling 简化了文档处理，可以解析各种格式（包括高级 PDF 理解），并与生成式 AI 生态系统无缝集成。

特性

🗂️ 解析多种文档格式，包括 PDF、DOCX、XLSX、HTML、图片等
📑 高级 PDF 理解，包括页面布局、阅读顺序、表格结构、代码、公式、图片分类等
🧬 统一的、富有表达力的 DoclingDocument 表示格式
↪️ 多种导出格式和选项，包括 Markdown、HTML 和无损 JSON
🔒 适用于敏感数据和气隙环境的本地执行能力
🤖 即插即用集成，包括 LangChain、LlamaIndex、Crew AI & Haystack，用于 Agentic AI
🔍 对扫描的 PDF 和图片提供广泛的 OCR 支持
🥚 支持视觉语言模型 (SmolDocling) 🆕🔥
💻 简单便捷的 CLI

即将推出

📝 元数据提取，包括标题、作者、参考文献 & 语言
📝 图表理解（条形图、饼图、折线图等）
📝 复杂化学理解（分子结构）

开始

概念
学习 Docling 基础知识示例
尝试各种用例的方案，包括转换、RAG 等集成
查看与流行框架和工具的集成参考
查看更多 API 详情

LF AI & Data

Docling 作为 LF AI & Data Foundation 中的一个项目托管。

IBM ❤️ 开源 AI

该项目由 IBM 苏黎世研究院的 AI for knowledge 团队启动。