跳到内容

Docling

Docling DS4SD%2Fdocling | Trendshift

arXiv PyPI version PyPI - Python Version Poetry Code style: black Imports: isort Pydantic v2 pre-commit License MIT PyPI Downloads OpenSSF Best Practices LF AI & Data

Docling 简化了文档处理,可以解析各种格式(包括高级 PDF 理解),并与生成式 AI 生态系统无缝集成。

特性

  • 🗂️ 解析多种文档格式,包括 PDF、DOCX、XLSX、HTML、图片等
  • 📑 高级 PDF 理解,包括页面布局、阅读顺序、表格结构、代码、公式、图片分类等
  • 🧬 统一的、富有表达力的 DoclingDocument 表示格式
  • ↪️ 多种导出格式和选项,包括 Markdown、HTML 和无损 JSON
  • 🔒 适用于敏感数据和气隙环境的本地执行能力
  • 🤖 即插即用集成,包括 LangChain、LlamaIndex、Crew AI & Haystack,用于 Agentic AI
  • 🔍 对扫描的 PDF 和图片提供广泛的 OCR 支持
  • 🥚 支持视觉语言模型 (SmolDocling) 🆕🔥
  • 💻 简单便捷的 CLI

即将推出

  • 📝 元数据提取,包括标题、作者、参考文献 & 语言
  • 📝 图表理解(条形图、饼图、折线图等)
  • 📝 复杂化学理解(分子结构)

开始

LF AI & Data

Docling 作为 LF AI & Data Foundation 中的一个项目托管。

IBM ❤️ 开源 AI

该项目由 IBM 苏黎世研究院的 AI for knowledge 团队启动。