Docling
Docling 简化了文档处理,可以解析各种格式(包括高级 PDF 理解),并与生成式 AI 生态系统无缝集成。
特性
- 🗂️ 解析多种文档格式,包括 PDF、DOCX、XLSX、HTML、图片等
- 📑 高级 PDF 理解,包括页面布局、阅读顺序、表格结构、代码、公式、图片分类等
- 🧬 统一的、富有表达力的 DoclingDocument 表示格式
- ↪️ 多种导出格式和选项,包括 Markdown、HTML 和无损 JSON
- 🔒 适用于敏感数据和气隙环境的本地执行能力
- 🤖 即插即用集成,包括 LangChain、LlamaIndex、Crew AI & Haystack,用于 Agentic AI
- 🔍 对扫描的 PDF 和图片提供广泛的 OCR 支持
- 🥚 支持视觉语言模型 (SmolDocling) 🆕🔥
- 💻 简单便捷的 CLI
即将推出
- 📝 元数据提取,包括标题、作者、参考文献 & 语言
- 📝 图表理解(条形图、饼图、折线图等)
- 📝 复杂化学理解(分子结构)
开始
LF AI & Data
Docling 作为 LF AI & Data Foundation 中的一个项目托管。
IBM ❤️ 开源 AI
该项目由 IBM 苏黎世研究院的 AI for knowledge 团队启动。