架构
简而言之,Docling 的架构如上图所示。
对于每种文档格式,文档转换器 知道要使用哪个特定于格式的 后端 来解析文档,以及使用哪个 流水线 来协调执行,以及任何相关的 选项。
提示
虽然文档转换器保留了默认映射,但此配置是可参数化的,因此例如对于 PDF 格式,可以使用不同的后端和不同的流水线选项——请参阅 用法。
转换结果 包含 Docling 文档,这是 Docling 的基本文档表示形式。
使用 Docling 文档的一些典型场景包括直接调用其 导出方法,例如用于 markdown、字典等,或者由 序列化器 进行序列化,或者由 分块器 进行分块。
有关 Docling 架构的更多详细信息,请查阅 Docling 技术报告。
注意
虚线轮廓所示的组件表示可以进行子类化以实现专门实现的基础类。