Docling 文档
这是 DoclingDocument 类型的自动生成的 API 参考。
doc
定义文档类型的模型的包。
类
-
DoclingDocument–DoclingDocument。
-
DocumentOrigin–文件源。
-
DocItem–DocItem。
-
DocItemLabel–DocItemLabel。
-
ProvenanceItem–ProvenanceItem。
-
GroupItem–GroupItem。
-
GroupLabel–GroupLabel。
-
NodeItem–NodeItem。
-
PageItem–PageItem。
-
FloatingItem–FloatingItem。
-
TextItem–TextItem。
-
TableItem–TableItem。
-
TableCell–TableCell。
-
TableData–BaseTableData。
-
TableCellLabel–TableCellLabel。
-
KeyValueItem–KeyValueItem。
-
SectionHeaderItem–SectionItem。
-
PictureItem–PictureItem。
-
ImageRef–ImageRef。
-
PictureClassificationClass–PictureClassificationData。
-
PictureClassificationData–PictureClassificationData。
-
RefItem–RefItem。
-
BoundingBox–BoundingBox。
-
CoordOrigin–CoordOrigin。
-
ImageRefMode–ImageRefMode。
-
Size–Size。
DoclingDocument
基类: BaseModel
DoclingDocument。
方法
-
add_code–add_code。
-
add_form–add_form。
-
add_formula–add_formula。
-
add_group–add_group。
-
add_heading–add_heading。
-
add_inline_group–add_inline_group。
-
add_key_values–add_key_values。
-
add_list_item–add_list_item。
-
add_ordered_list–add_ordered_list。
-
add_page–add_page。
-
add_picture–add_picture。
-
add_table–add_table。
-
add_text–add_text。
-
add_title–add_title。
-
add_unordered_list–add_unordered_list。
-
append_child_item–添加一个项。
-
check_version_is_compatible–检查此文档版本是否与当前版本兼容。
-
delete_items–删除一个项及其所有子项,通过其实例或引用给定。
-
export_to_dict–导出为字典。
-
export_to_doctags–将文档内容导出为 DocumentToken 格式。
-
export_to_document_tokens–导出为 DocTags 格式。
-
export_to_element_tree–导出为 element_tree。
-
export_to_html–序列化为 HTML。
-
export_to_markdown–序列化为 Markdown。
-
export_to_text–导出为文本。
-
get_visualization–按页获取文档的可视化(图像形式)。
-
insert_item_after_sibling–在另一个项之后插入一个项(兄弟项),通过其 node_item 实例给定。
-
insert_item_before_sibling–在另一个项之前插入一个项(兄弟项),通过其 node_item 实例给定。
-
iterate_items–迭代带有级别的元素。
-
load_from_doctags–从 DocTags 和图像列表中加载 Docling 文档。
-
load_from_json–从 json 加载。
-
load_from_yaml–从 yaml 加载。
-
num_pages–页数。
-
print_element_tree–打印 element_tree。
-
replace_item–用新项替换现有项。
-
save_as_doctags–将文档内容保存为 DocTags 格式。
-
save_as_document_tokens–将文档内容保存为 DocumentToken 格式。
-
save_as_html–保存为 HTML。
-
save_as_json–保存为 json。
-
save_as_markdown–保存为 markdown。
-
save_as_yaml–保存为 yaml。
-
transform_to_content_layer–转换为 content_layer。
-
validate_document–验证文档。
-
validate_tree–验证树结构。
属性
-
body(GroupItem) – -
form_items(List[FormItem]) – -
furniture(Annotated[GroupItem, Field(deprecated=True)]) – -
groups(List[Union[OrderedList, UnorderedList, InlineGroup, GroupItem]]) – -
key_value_items(List[KeyValueItem]) – -
name(str) – -
origin(Optional[DocumentOrigin]) – -
pages(Dict[int, PageItem]) – -
pictures(List[PictureItem]) – -
schema_name(Literal['DoclingDocument']) – -
tables(List[TableItem]) – -
texts(List[Union[TitleItem, SectionHeaderItem, ListItem, CodeItem, FormulaItem, TextItem]]) – -
version(Annotated[str, StringConstraints(pattern=VERSION_PATTERN, strict=True)]) –
form_items
form_items: List[FormItem] = []
furniture
furniture: Annotated[GroupItem, Field(deprecated=True)] = (
GroupItem(
name="_root_",
self_ref="#/furniture",
content_layer=FURNITURE,
)
)
name
name: str
schema_name
schema_name: Literal['DoclingDocument'] = 'DoclingDocument'
texts
texts: List[
Union[
TitleItem,
SectionHeaderItem,
ListItem,
CodeItem,
FormulaItem,
TextItem,
]
] = []
version
version: Annotated[
str,
StringConstraints(pattern=VERSION_PATTERN, strict=True),
] = CURRENT_VERSION
add_code
add_code(
text: str,
code_language: Optional[CodeLanguageLabel] = None,
orig: Optional[str] = None,
caption: Optional[Union[TextItem, RefItem]] = None,
prov: Optional[ProvenanceItem] = None,
parent: Optional[NodeItem] = None,
content_layer: Optional[ContentLayer] = None,
formatting: Optional[Formatting] = None,
hyperlink: Optional[Union[AnyUrl, Path]] = None,
)
add_code。
参数
-
text(str) –str
-
code_language(Optional[CodeLanguageLabel], 默认值:None) –Optional[str]: (默认值 = None)
-
orig(Optional[str], 默认值:None) –Optional[str]: (默认值 = None)
-
caption(Optional[Union[TextItem, RefItem]], 默认值:None) –Optional[Union[TextItem
-
RefItem]]–(默认值 = None)
-
prov(Optional[ProvenanceItem], 默认值:None) –Optional[ProvenanceItem]: (默认值 = None)
-
parent(Optional[NodeItem], 默认值:None) –Optional[NodeItem]: (默认值 = None)
add_form
add_form(
graph: GraphData,
prov: Optional[ProvenanceItem] = None,
parent: Optional[NodeItem] = None,
)
add_form。
参数
-
graph(GraphData) –GraphData
-
prov(Optional[ProvenanceItem], 默认值:None) –Optional[ProvenanceItem]: (默认值 = None)
-
parent(Optional[NodeItem], 默认值:None) –Optional[NodeItem]: (默认值 = None)
add_formula
add_formula(
text: str,
orig: Optional[str] = None,
prov: Optional[ProvenanceItem] = None,
parent: Optional[NodeItem] = None,
content_layer: Optional[ContentLayer] = None,
formatting: Optional[Formatting] = None,
hyperlink: Optional[Union[AnyUrl, Path]] = None,
)
add_formula。
参数
-
text(str) –str
-
orig(Optional[str], 默认值:None) –Optional[str]: (默认值 = None)
-
level–LevelNumber: (默认值 = 1)
-
prov(Optional[ProvenanceItem], 默认值:None) –Optional[ProvenanceItem]: (默认值 = None)
-
parent(Optional[NodeItem], 默认值:None) –Optional[NodeItem]: (默认值 = None)
add_group
add_group(
label: Optional[GroupLabel] = None,
name: Optional[str] = None,
parent: Optional[NodeItem] = None,
content_layer: Optional[ContentLayer] = None,
) -> GroupItem
add_group。
参数
-
label(Optional[GroupLabel], 默认值:None) –Optional[GroupLabel]: (默认值 = None)
-
name(Optional[str], 默认值:None) –Optional[str]: (默认值 = None)
-
parent(Optional[NodeItem], 默认值:None) –Optional[NodeItem]: (默认值 = None)
add_heading
add_heading(
text: str,
orig: Optional[str] = None,
level: LevelNumber = 1,
prov: Optional[ProvenanceItem] = None,
parent: Optional[NodeItem] = None,
content_layer: Optional[ContentLayer] = None,
formatting: Optional[Formatting] = None,
hyperlink: Optional[Union[AnyUrl, Path]] = None,
)
add_heading。
参数
-
label–DocItemLabel
-
text(str) –str
-
orig(Optional[str], 默认值:None) –Optional[str]: (默认值 = None)
-
level(LevelNumber, 默认值:1) –LevelNumber: (默认值 = 1)
-
prov(Optional[ProvenanceItem], 默认值:None) –Optional[ProvenanceItem]: (默认值 = None)
-
parent(Optional[NodeItem], 默认值:None) –Optional[NodeItem]: (默认值 = None)
add_inline_group
add_inline_group(
name: Optional[str] = None,
parent: Optional[NodeItem] = None,
content_layer: Optional[ContentLayer] = None,
) -> GroupItem
add_inline_group。
add_key_values
add_key_values(
graph: GraphData,
prov: Optional[ProvenanceItem] = None,
parent: Optional[NodeItem] = None,
)
add_key_values。
参数
-
graph(GraphData) –GraphData
-
prov(Optional[ProvenanceItem], 默认值:None) –Optional[ProvenanceItem]: (默认值 = None)
-
parent(Optional[NodeItem], 默认值:None) –Optional[NodeItem]: (默认值 = None)
add_list_item
add_list_item(
text: str,
enumerated: bool = False,
marker: Optional[str] = None,
orig: Optional[str] = None,
prov: Optional[ProvenanceItem] = None,
parent: Optional[NodeItem] = None,
content_layer: Optional[ContentLayer] = None,
formatting: Optional[Formatting] = None,
hyperlink: Optional[Union[AnyUrl, Path]] = None,
)
add_list_item。
参数
-
label–str
-
text(str) –str
-
orig(Optional[str], 默认值:None) –Optional[str]: (默认值 = None)
-
prov(Optional[ProvenanceItem], 默认值:None) –Optional[ProvenanceItem]: (默认值 = None)
-
parent(Optional[NodeItem], 默认值:None) –Optional[NodeItem]: (默认值 = None)
add_ordered_list
add_ordered_list(
name: Optional[str] = None,
parent: Optional[NodeItem] = None,
content_layer: Optional[ContentLayer] = None,
) -> GroupItem
add_ordered_list。
add_page
add_picture
add_picture(
annotations: List[PictureDataType] = [],
image: Optional[ImageRef] = None,
caption: Optional[Union[TextItem, RefItem]] = None,
prov: Optional[ProvenanceItem] = None,
parent: Optional[NodeItem] = None,
content_layer: Optional[ContentLayer] = None,
)
add_picture。
参数
-
data–List[PictureData]: (默认值 = [])
-
caption(Optional[Union[TextItem, RefItem]], 默认值:None) –Optional[Union[TextItem
-
RefItem]]–(默认值 = None)
-
prov(Optional[ProvenanceItem], 默认值:None) –Optional[ProvenanceItem]: (默认值 = None)
-
parent(Optional[NodeItem], 默认值:None) –Optional[NodeItem]: (默认值 = None)
add_table
add_table(
data: TableData,
caption: Optional[Union[TextItem, RefItem]] = None,
prov: Optional[ProvenanceItem] = None,
parent: Optional[NodeItem] = None,
label: DocItemLabel = TABLE,
content_layer: Optional[ContentLayer] = None,
)
add_table。
参数
-
data(TableData) –TableData
-
caption(Optional[Union[TextItem, RefItem]], 默认值:None) –Optional[Union[TextItem, RefItem]]: (默认值 = None)
-
prov(Optional[ProvenanceItem], 默认值:None) –Optional[ProvenanceItem]: (默认值 = None)
-
parent(Optional[NodeItem], 默认值:None) –Optional[NodeItem]: (默认值 = None)
-
label(DocItemLabel, 默认值:TABLE) –DocItemLabel: (默认值 = DocItemLabel.TABLE)
add_text
add_text(
label: DocItemLabel,
text: str,
orig: Optional[str] = None,
prov: Optional[ProvenanceItem] = None,
parent: Optional[NodeItem] = None,
content_layer: Optional[ContentLayer] = None,
formatting: Optional[Formatting] = None,
hyperlink: Optional[Union[AnyUrl, Path]] = None,
)
add_text。
参数
-
label(DocItemLabel) –str
-
text(str) –str
-
orig(Optional[str], 默认值:None) –Optional[str]: (默认值 = None)
-
prov(Optional[ProvenanceItem], 默认值:None) –Optional[ProvenanceItem]: (默认值 = None)
-
parent(Optional[NodeItem], 默认值:None) –Optional[NodeItem]: (默认值 = None)
add_title
add_title(
text: str,
orig: Optional[str] = None,
prov: Optional[ProvenanceItem] = None,
parent: Optional[NodeItem] = None,
content_layer: Optional[ContentLayer] = None,
formatting: Optional[Formatting] = None,
hyperlink: Optional[Union[AnyUrl, Path]] = None,
)
add_title。
参数
-
text(str) –str
-
orig(Optional[str], 默认值:None) –Optional[str]: (默认值 = None)
-
level–LevelNumber: (默认值 = 1)
-
prov(Optional[ProvenanceItem], 默认值:None) –Optional[ProvenanceItem]: (默认值 = None)
-
parent(Optional[NodeItem], 默认值:None) –Optional[NodeItem]: (默认值 = None)
add_unordered_list
add_unordered_list(
name: Optional[str] = None,
parent: Optional[NodeItem] = None,
content_layer: Optional[ContentLayer] = None,
) -> GroupItem
add_unordered_list。
append_child_item
添加一个项。
check_version_is_compatible
check_version_is_compatible(v: str) -> str
检查此文档版本是否与当前版本兼容。
export_to_dict
export_to_dict(
mode: str = "json",
by_alias: bool = True,
exclude_none: bool = True,
) -> Dict[str, Any]
导出为字典。
export_to_doctags
export_to_doctags(
delim: str = "",
from_element: int = 0,
to_element: int = maxsize,
labels: Optional[set[DocItemLabel]] = None,
xsize: int = 500,
ysize: int = 500,
add_location: bool = True,
add_content: bool = True,
add_page_index: bool = True,
add_table_cell_location: bool = False,
add_table_cell_text: bool = True,
minified: bool = False,
) -> str
将文档内容导出为 DocumentToken 格式。
根据参数 from_element 和 to_element 定义,对文档主体的切片进行操作;默认情况下处理整个 main_text。
参数
-
delim(str, 默认值:'') –str: (默认值 = "") 已弃用
-
from_element(int, 默认值:0) –int: (默认值 = 0)
-
to_element(int, 默认值:maxsize) –Optional[int]: (默认值 = None)
-
labels(Optional[set[DocItemLabel]], 默认值:None) –set[DocItemLabel]
-
xsize(int, 默认值:500) –int: (默认值 = 500)
-
ysize(int) –int: (默认值 = 500)
-
add_location(bool, 默认值:True) –bool: (默认值 = True)
-
add_content(bool) –bool: (默认值 = True)
-
add_page_index(bool) –bool: (默认值 = True)
-
add_table_cell_text(bool) –bool: (默认值 = True)
-
minified(bool, 默认值:False) –bool: (默认值 = False)
返回值
-
str–格式化为 DocTags 字符串的文档内容。
export_to_document_tokens
export_to_document_tokens(*args, **kwargs)
导出为 DocTags 格式。
export_to_element_tree
export_to_element_tree() -> str
导出为 element_tree。
export_to_html
export_to_html(
from_element: int = 0,
to_element: int = maxsize,
labels: Optional[set[DocItemLabel]] = None,
enable_chart_tables: bool = True,
image_mode: ImageRefMode = PLACEHOLDER,
formula_to_mathml: bool = True,
page_no: Optional[int] = None,
html_lang: str = "en",
html_head: str = "null",
included_content_layers: Optional[
set[ContentLayer]
] = None,
split_page_view: bool = False,
) -> str
序列化为 HTML。
export_to_markdown
export_to_markdown(
delim: str = "\n\n",
from_element: int = 0,
to_element: int = maxsize,
labels: Optional[set[DocItemLabel]] = None,
strict_text: bool = False,
escape_underscores: bool = True,
image_placeholder: str = "<!-- image -->",
enable_chart_tables: bool = True,
image_mode: ImageRefMode = PLACEHOLDER,
indent: int = 4,
text_width: int = -1,
page_no: Optional[int] = None,
included_content_layers: Optional[
set[ContentLayer]
] = None,
page_break_placeholder: Optional[str] = None,
) -> str
序列化为 Markdown。
根据参数 from_element 和 to_element 定义,对文档主体的切片进行操作;默认情况下处理整个文档。
参数
-
delim(str, 默认值:'\n\n') –已弃用。
-
from_element(int, 默认值:0) –主体切片起始索引(包含)。(默认值 = 0)。
-
to_element(int, 默认值:maxsize) –主体切片结束索引(不包含)。(默认值 = maxint)。
-
labels(Optional[set[DocItemLabel]], 默认值:None) –导出中包含的文档标签集合。如果为 None,则回退到系统定义的默认值。
-
strict_text(bool) –已弃用。
-
escaping_underscores(bool = True) –bool: 是否转义文档文本内容中的下划线。(默认值 = True)。
-
image_placeholder(str, 默认值:'<!-- image -->') –用于在 markdown 中定位图像的占位符。(默认值 = "\<!-- image -->")。
-
image_mode(ImageRefMode, 默认值:PLACEHOLDER) –在 markdown 中包含图像时使用的模式。(默认值 = ImageRefMode.PLACEHOLDER)。
-
indent(int) –嵌套列表的缩进空格数。(默认值 = 4)。
-
included_content_layers(Optional[set[ContentLayer]], 默认值:None) –导出中包含的层集合。如果为 None,则回退到系统定义的默认值。
-
page_break_placeholder(Optional[str], 默认值:None) –用于标记分页符的占位符。如果为 None,则不使用分页符占位符。
返回值
-
str–导出的 Markdown 表示。
export_to_text
export_to_text(
delim: str = "\n\n",
from_element: int = 0,
to_element: int = 1000000,
labels: Optional[set[DocItemLabel]] = None,
) -> str
导出为文本。
get_visualization
get_visualization(
show_label: bool = True,
) -> dict[Optional[int], Image]
按页获取文档的可视化(图像形式)。
insert_item_after_sibling
在另一个项之后插入一个项(兄弟项),通过其 node_item 实例给定。
insert_item_before_sibling
在另一个项之前插入一个项(兄弟项),通过其 node_item 实例给定。
iterate_items
iterate_items(
root: Optional[NodeItem] = None,
with_groups: bool = False,
traverse_pictures: bool = False,
page_no: Optional[int] = None,
included_content_layers: Optional[
set[ContentLayer]
] = None,
_level: int = 0,
) -> Iterable[Tuple[NodeItem, int]]
迭代带有级别的元素。
load_from_doctags
load_from_doctags(
doctag_document: DocTagsDocument,
document_name: str = "Document",
) -> DoclingDocument
从 DocTags 和图像列表中加载 Docling 文档。
load_from_json
load_from_json(
filename: Union[str, Path]
) -> DoclingDocument
从 json 加载。
参数
-
filename(Union[str, Path]) –从 .json 文件加载保存的 DoclingDocument 的文件名。
返回值
-
DoclingDocument–加载的 DoclingDocument。
load_from_yaml
load_from_yaml(
filename: Union[str, Path]
) -> DoclingDocument
从 yaml 加载。
参数:filename: 从 YAML 序列化的 DoclingDocument 文件加载的文件名。
返回值:DoclingDocument: 加载的 DoclingDocument
num_pages
num_pages()
页数。
print_element_tree
print_element_tree()
打印 element_tree。
save_as_doctags
save_as_doctags(
filename: Union[str, Path],
delim: str = "",
from_element: int = 0,
to_element: int = maxsize,
labels: Optional[set[DocItemLabel]] = None,
xsize: int = 500,
ysize: int = 500,
add_location: bool = True,
add_content: bool = True,
add_page_index: bool = True,
add_table_cell_location: bool = False,
add_table_cell_text: bool = True,
minified: bool = False,
)
将文档内容保存为 DocTags 格式。
save_as_document_tokens
save_as_document_tokens(*args, **kwargs)
将文档内容保存为 DocumentToken 格式。
save_as_html
save_as_html(
filename: Union[str, Path],
artifacts_dir: Optional[Path] = None,
from_element: int = 0,
to_element: int = maxsize,
labels: Optional[set[DocItemLabel]] = None,
image_mode: ImageRefMode = PLACEHOLDER,
formula_to_mathml: bool = True,
page_no: Optional[int] = None,
html_lang: str = "en",
html_head: str = "null",
included_content_layers: Optional[
set[ContentLayer]
] = None,
split_page_view: bool = False,
)
保存为 HTML。
save_as_json
save_as_json(
filename: Union[str, Path],
artifacts_dir: Optional[Path] = None,
image_mode: ImageRefMode = EMBEDDED,
indent: int = 2,
)
保存为 json。
save_as_markdown
save_as_markdown(
filename: Union[str, Path],
artifacts_dir: Optional[Path] = None,
delim: str = "\n\n",
from_element: int = 0,
to_element: int = maxsize,
labels: Optional[set[DocItemLabel]] = None,
strict_text: bool = False,
escaping_underscores: bool = True,
image_placeholder: str = "<!-- image -->",
image_mode: ImageRefMode = PLACEHOLDER,
indent: int = 4,
text_width: int = -1,
page_no: Optional[int] = None,
included_content_layers: Optional[
set[ContentLayer]
] = None,
page_break_placeholder: Optional[str] = None,
)
保存为 markdown。
save_as_yaml
save_as_yaml(
filename: Union[str, Path],
artifacts_dir: Optional[Path] = None,
image_mode: ImageRefMode = EMBEDDED,
default_flow_style: bool = False,
)
保存为 yaml。
transform_to_content_layer
transform_to_content_layer(data: dict) -> dict
转换为 content_layer。
validate_tree
validate_tree(root) -> bool
验证树结构。
DocumentOrigin
基类: BaseModel
文件源。
方法
-
parse_hex_string–parse_hex_string。
-
validate_mimetype–validate_mimetype。
属性
-
binary_hash(Uint64) – -
filename(str) – -
mimetype(str) – -
uri(Optional[AnyUrl]) –
binary_hash
binary_hash: Uint64
filename
filename: str
mimetype
mimetype: str
uri
uri: Optional[AnyUrl] = None
parse_hex_string
parse_hex_string(value)
parse_hex_string。
validate_mimetype
validate_mimetype(v)
validate_mimetype。
DocItem
基类: NodeItem
DocItem。
方法
-
get_image–返回此 DocItem 的图像。
-
get_location_tokens–获取 BaseCell 的位置字符串。
-
get_ref–get_ref。
属性
-
children(List[RefItem]) – -
content_layer(ContentLayer) – -
label(DocItemLabel) – -
model_config– -
parent(Optional[RefItem]) – -
prov(List[ProvenanceItem]) – -
self_ref(str) –
content_layer
content_layer: ContentLayer = BODY
model_config
model_config = ConfigDict(extra='forbid')
self_ref
self_ref: str = Field(pattern=_JSON_POINTER_REGEX)
get_image
get_image(
doc: DoclingDocument, prov_index: int = 0
) -> Optional[Image]
返回此 DocItem 的图像。
如果此 DocItem 没有有效的 provenance,或者包含此 DocItem 的页面有效图像在 doc 中不可用,则此函数返回 None。
get_location_tokens
get_location_tokens(
doc: DoclingDocument,
new_line: str = "",
xsize: int = 500,
ysize: int = 500,
) -> str
获取 BaseCell 的位置字符串。
DocItemLabel
基类: str, Enum
DocItemLabel。
方法
-
get_color–返回与给定标签关联的 RGB 颜色。
属性
-
CAPTION– -
CHART– -
CHECKBOX_SELECTED– -
CHECKBOX_UNSELECTED– -
CODE– -
DOCUMENT_INDEX– -
FOOTNOTE– -
FORM– -
FORMULA– -
KEY_VALUE_REGION– -
LIST_ITEM– -
PAGE_FOOTER– -
PAGE_HEADER– -
PARAGRAPH– -
PICTURE– -
REFERENCE– -
SECTION_HEADER– -
TABLE– -
TEXT– -
TITLE–
CAPTION
CAPTION = 'caption'
CHART
CHART = 'chart'
CHECKBOX_SELECTED
CHECKBOX_SELECTED = 'checkbox_selected'
CHECKBOX_UNSELECTED
CHECKBOX_UNSELECTED = 'checkbox_unselected'
CODE
CODE = 'code'
DOCUMENT_INDEX
DOCUMENT_INDEX = 'document_index'
FOOTNOTE
FOOTNOTE = 'footnote'
FORM
FORM = 'form'
FORMULA
FORMULA = 'formula'
KEY_VALUE_REGION
KEY_VALUE_REGION = 'key_value_region'
LIST_ITEM
LIST_ITEM = 'list_item'
PAGE_FOOTER
PAGE_FOOTER = 'page_footer'
PAGE_HEADER
PAGE_HEADER = 'page_header'
PARAGRAPH
PARAGRAPH = 'paragraph'
PICTURE
PICTURE = 'picture'
REFERENCE
REFERENCE = 'reference'
SECTION_HEADER
SECTION_HEADER = 'section_header'
TABLE
TABLE = 'table'
TEXT
TEXT = 'text'
TITLE
TITLE = 'title'
ProvenanceItem
GroupItem
基类: NodeItem
GroupItem。
方法
-
get_ref–get_ref。
属性
-
children(List[RefItem]) – -
content_layer(ContentLayer) – -
label(GroupLabel) – -
model_config– -
name(str) – -
parent(Optional[RefItem]) – -
self_ref(str) –
content_layer
content_layer: ContentLayer = BODY
model_config
model_config = ConfigDict(extra='forbid')
name
name: str = 'group'
self_ref
self_ref: str = Field(pattern=_JSON_POINTER_REGEX)
GroupLabel
基类: str, Enum
GroupLabel。
属性
-
CHAPTER– -
COMMENT_SECTION– -
FORM_AREA– -
INLINE– -
KEY_VALUE_AREA– -
LIST– -
ORDERED_LIST– -
PICTURE_AREA– -
SECTION– -
SHEET– -
SLIDE– -
UNSPECIFIED–
CHAPTER
CHAPTER = 'chapter'
COMMENT_SECTION
COMMENT_SECTION = 'comment_section'
FORM_AREA
FORM_AREA = 'form_area'
INLINE
INLINE = 'inline'
KEY_VALUE_AREA
KEY_VALUE_AREA = 'key_value_area'
LIST
LIST = 'list'
ORDERED_LIST
ORDERED_LIST = 'ordered_list'
PICTURE_AREA
PICTURE_AREA = 'picture_area'
SECTION
SECTION = 'section'
SHEET
SHEET = 'sheet'
SLIDE
SLIDE = 'slide'
UNSPECIFIED
UNSPECIFIED = 'unspecified'
NodeItem
基类: BaseModel
NodeItem。
方法
-
get_ref–get_ref。
属性
-
children(List[RefItem]) – -
content_layer(ContentLayer) – -
model_config– -
parent(Optional[RefItem]) – -
self_ref(str) –
PageItem
FloatingItem
基类: DocItem
FloatingItem。
方法
-
caption_text–计算字幕为单个文本。
-
get_image–返回此 FloatingItem 对应的图像。
-
get_location_tokens–获取 BaseCell 的位置字符串。
-
get_ref–get_ref。
属性
-
captions(List[RefItem]) – -
children(List[RefItem]) – -
content_layer(ContentLayer) – -
footnotes(List[RefItem]) – -
image(Optional[ImageRef]) – -
label(DocItemLabel) – -
model_config– -
parent(Optional[RefItem]) – -
prov(List[ProvenanceItem]) – -
references(List[RefItem]) – -
self_ref(str) –
content_layer
content_layer: ContentLayer = BODY
model_config
model_config = ConfigDict(extra='forbid')
self_ref
self_ref: str = Field(pattern=_JSON_POINTER_REGEX)
get_image
get_image(
doc: DoclingDocument, prov_index: int = 0
) -> Optional[Image]
返回此 FloatingItem 对应的图像。
此函数返回 self.image 中的 PIL 图像(如果可用)。否则,它使用 DocItem.get_image 获取此 FloatingItem 的图像。
特别是,当 self.image 为 None 时,如果此 FloatingItem 没有有效的来源信息或文档不包含所需页面的有效图像,则函数返回 None。
get_location_tokens
get_location_tokens(
doc: DoclingDocument,
new_line: str = "",
xsize: int = 500,
ysize: int = 500,
) -> str
获取 BaseCell 的位置字符串。
TextItem
基类: DocItem
TextItem。
方法
-
export_to_doctags–将文本元素导出为文档标记格式。
-
export_to_document_tokens–导出为 DocTags 格式。
-
get_image–返回此 DocItem 的图像。
-
get_location_tokens–获取 BaseCell 的位置字符串。
-
get_ref–get_ref。
属性
-
children(List[RefItem]) – -
content_layer(ContentLayer) – -
formatting(Optional[Formatting]) – -
hyperlink(Optional[Union[AnyUrl, Path]]) – -
label(Literal[CAPTION, CHECKBOX_SELECTED, CHECKBOX_UNSELECTED, FOOTNOTE, PAGE_FOOTER, PAGE_HEADER, PARAGRAPH, REFERENCE, TEXT]) – -
model_config– -
orig(str) – -
parent(Optional[RefItem]) – -
prov(List[ProvenanceItem]) – -
self_ref(str) – -
text(str) –
content_layer
content_layer: ContentLayer = BODY
formatting
formatting: Optional[Formatting] = None
hyperlink
hyperlink: Optional[Union[AnyUrl, Path]] = Field(
union_mode="left_to_right", default=None
)
label
label: Literal[
CAPTION,
CHECKBOX_SELECTED,
CHECKBOX_UNSELECTED,
FOOTNOTE,
PAGE_FOOTER,
PAGE_HEADER,
PARAGRAPH,
REFERENCE,
TEXT,
]
model_config
model_config = ConfigDict(extra='forbid')
orig
orig: str
self_ref
self_ref: str = Field(pattern=_JSON_POINTER_REGEX)
text
text: str
export_to_doctags
export_to_doctags(
doc: DoclingDocument,
new_line: str = "",
xsize: int = 500,
ysize: int = 500,
add_location: bool = True,
add_content: bool = True,
)
将文本元素导出为文档标记格式。
参数
-
doc(DoclingDocument) –“DoclingDocument”
-
new_line(str, default:'') –str (默认值 = "") 已弃用
-
xsize(int, 默认值:500) –int: (默认值 = 500)
-
ysize(int) –int: (默认值 = 500)
-
add_location(bool, 默认值:True) –bool: (默认值 = True)
-
add_content(bool) –bool: (默认值 = True)
export_to_document_tokens
export_to_document_tokens(*args, **kwargs)
导出为 DocTags 格式。
get_image
get_image(
doc: DoclingDocument, prov_index: int = 0
) -> Optional[Image]
返回此 DocItem 的图像。
如果此 DocItem 没有有效的 provenance,或者包含此 DocItem 的页面有效图像在 doc 中不可用,则此函数返回 None。
get_location_tokens
get_location_tokens(
doc: DoclingDocument,
new_line: str = "",
xsize: int = 500,
ysize: int = 500,
) -> str
获取 BaseCell 的位置字符串。
TableItem
基类: FloatingItem
TableItem。
方法
-
caption_text–计算字幕为单个文本。
-
export_to_dataframe–将表格导出为 Pandas DataFrame。
-
export_to_doctags–将表格导出为文档标记格式。
-
export_to_document_tokens–导出为 DocTags 格式。
-
export_to_html–将表格导出为 HTML 格式。
-
export_to_markdown–将表格导出为 Markdown 格式。
-
export_to_otsl–将表格导出为 OTSL 格式。
-
get_image–返回此 FloatingItem 对应的图像。
-
get_location_tokens–获取 BaseCell 的位置字符串。
-
get_ref–get_ref。
属性
-
captions(List[RefItem]) – -
children(List[RefItem]) – -
content_layer(ContentLayer) – -
data(TableData) – -
footnotes(List[RefItem]) – -
image(Optional[ImageRef]) – -
label(Literal[DOCUMENT_INDEX, TABLE]) – -
model_config– -
parent(Optional[RefItem]) – -
prov(List[ProvenanceItem]) – -
references(List[RefItem]) – -
self_ref(str) –
content_layer
content_layer: ContentLayer = BODY
model_config
model_config = ConfigDict(extra='forbid')
self_ref
self_ref: str = Field(pattern=_JSON_POINTER_REGEX)
export_to_dataframe
export_to_dataframe() -> DataFrame
将表格导出为 Pandas DataFrame。
export_to_doctags
export_to_doctags(
doc: DoclingDocument,
new_line: str = "",
xsize: int = 500,
ysize: int = 500,
add_location: bool = True,
add_cell_location: bool = True,
add_cell_text: bool = True,
add_caption: bool = True,
)
将表格导出为文档标记格式。
参数
-
doc(DoclingDocument) –“DoclingDocument”
-
new_line(str, default:'') –str (默认值 = "") 已弃用
-
xsize(int, 默认值:500) –int: (默认值 = 500)
-
ysize(int) –int: (默认值 = 500)
-
add_location(bool, 默认值:True) –bool: (默认值 = True)
-
add_cell_location(bool, default:True) –bool: (默认值 = True)
-
add_cell_text(bool, default:True) –bool: (默认值 = True)
-
add_caption(bool, default:True) –bool: (默认值 = True)
export_to_document_tokens
export_to_document_tokens(*args, **kwargs)
导出为 DocTags 格式。
export_to_html
export_to_html(
doc: Optional[DoclingDocument] = None,
add_caption: bool = True,
) -> str
将表格导出为 HTML 格式。
export_to_markdown
export_to_markdown(
doc: Optional[DoclingDocument] = None,
) -> str
将表格导出为 Markdown 格式。
export_to_otsl
export_to_otsl(
doc: DoclingDocument,
add_cell_location: bool = True,
add_cell_text: bool = True,
xsize: int = 500,
ysize: int = 500,
) -> str
将表格导出为 OTSL 格式。
get_image
get_image(
doc: DoclingDocument, prov_index: int = 0
) -> Optional[Image]
返回此 FloatingItem 对应的图像。
此函数返回 self.image 中的 PIL 图像(如果可用)。否则,它使用 DocItem.get_image 获取此 FloatingItem 的图像。
特别是,当 self.image 为 None 时,如果此 FloatingItem 没有有效的来源信息或文档不包含所需页面的有效图像,则函数返回 None。
get_location_tokens
get_location_tokens(
doc: DoclingDocument,
new_line: str = "",
xsize: int = 500,
ysize: int = 500,
) -> str
获取 BaseCell 的位置字符串。
TableCell
基类: BaseModel
TableCell。
方法
-
from_dict_format–from_dict_format。
属性
-
bbox(Optional[BoundingBox]) – -
col_span(int) – -
column_header(bool) – -
end_col_offset_idx(int) – -
end_row_offset_idx(int) – -
row_header(bool) – -
row_section(bool) – -
row_span(int) – -
start_col_offset_idx(int) – -
start_row_offset_idx(int) – -
text(str) –
col_span
col_span: int = 1
column_header
column_header: bool = False
end_col_offset_idx
end_col_offset_idx: int
end_row_offset_idx
end_row_offset_idx: int
row_header
row_header: bool = False
row_section
row_section: bool = False
row_span
row_span: int = 1
start_col_offset_idx
start_col_offset_idx: int
start_row_offset_idx
start_row_offset_idx: int
text
text: str
from_dict_format
from_dict_format(data: Any) -> Any
from_dict_format。
TableData
TableCellLabel
基类: str, Enum
TableCellLabel。
属性
-
BODY– -
COLUMN_HEADER– -
ROW_HEADER– -
ROW_SECTION–
BODY
BODY = 'body'
COLUMN_HEADER
COLUMN_HEADER = 'col_header'
ROW_HEADER
ROW_HEADER = 'row_header'
ROW_SECTION
ROW_SECTION = 'row_section'
KeyValueItem
基类: FloatingItem
KeyValueItem。
方法
-
caption_text–计算字幕为单个文本。
-
export_to_document_tokens–将键值项导出为文档标记格式。
-
get_image–返回此 FloatingItem 对应的图像。
-
get_location_tokens–获取 BaseCell 的位置字符串。
-
get_ref–get_ref。
属性
-
captions(List[RefItem]) – -
children(List[RefItem]) – -
content_layer(ContentLayer) – -
footnotes(List[RefItem]) – -
graph(GraphData) – -
image(Optional[ImageRef]) – -
label(Literal[KEY_VALUE_REGION]) – -
model_config– -
parent(Optional[RefItem]) – -
prov(List[ProvenanceItem]) – -
references(List[RefItem]) – -
self_ref(str) –
content_layer
content_layer: ContentLayer = BODY
graph
graph: GraphData
model_config
model_config = ConfigDict(extra='forbid')
self_ref
self_ref: str = Field(pattern=_JSON_POINTER_REGEX)
export_to_document_tokens
export_to_document_tokens(
doc: DoclingDocument,
new_line: str = "",
xsize: int = 500,
ysize: int = 500,
add_location: bool = True,
add_content: bool = True,
)
将键值项导出为文档标记格式。
参数
-
doc(DoclingDocument) –“DoclingDocument”
-
new_line(str, default:'') –str (默认值 = "") 已弃用
-
xsize(int, 默认值:500) –int: (默认值 = 500)
-
ysize(int) –int: (默认值 = 500)
-
add_location(bool, 默认值:True) –bool: (默认值 = True)
-
add_content(bool) –bool: (默认值 = True)
get_image
get_image(
doc: DoclingDocument, prov_index: int = 0
) -> Optional[Image]
返回此 FloatingItem 对应的图像。
此函数返回 self.image 中的 PIL 图像(如果可用)。否则,它使用 DocItem.get_image 获取此 FloatingItem 的图像。
特别是,当 self.image 为 None 时,如果此 FloatingItem 没有有效的来源信息或文档不包含所需页面的有效图像,则函数返回 None。
get_location_tokens
get_location_tokens(
doc: DoclingDocument,
new_line: str = "",
xsize: int = 500,
ysize: int = 500,
) -> str
获取 BaseCell 的位置字符串。
SectionHeaderItem
基类: TextItem
SectionItem。
方法
-
export_to_doctags–将文本元素导出为文档标记格式。
-
export_to_document_tokens–导出为 DocTags 格式。
-
get_image–返回此 DocItem 的图像。
-
get_location_tokens–获取 BaseCell 的位置字符串。
-
get_ref–get_ref。
属性
-
children(List[RefItem]) – -
content_layer(ContentLayer) – -
formatting(Optional[Formatting]) – -
hyperlink(Optional[Union[AnyUrl, Path]]) – -
label(Literal[SECTION_HEADER]) – -
level(LevelNumber) – -
model_config– -
orig(str) – -
parent(Optional[RefItem]) – -
prov(List[ProvenanceItem]) – -
self_ref(str) – -
text(str) –
content_layer
content_layer: ContentLayer = BODY
formatting
formatting: Optional[Formatting] = None
hyperlink
hyperlink: Optional[Union[AnyUrl, Path]] = Field(
union_mode="left_to_right", default=None
)
level
level: LevelNumber = 1
model_config
model_config = ConfigDict(extra='forbid')
orig
orig: str
self_ref
self_ref: str = Field(pattern=_JSON_POINTER_REGEX)
text
text: str
export_to_doctags
export_to_doctags(
doc: DoclingDocument,
new_line: str = "",
xsize: int = 500,
ysize: int = 500,
add_location: bool = True,
add_content: bool = True,
)
将文本元素导出为文档标记格式。
参数
-
doc(DoclingDocument) –“DoclingDocument”
-
new_line(str, default:'') –str (默认值 = "") 已弃用
-
xsize(int, 默认值:500) –int: (默认值 = 500)
-
ysize(int) –int: (默认值 = 500)
-
add_location(bool, 默认值:True) –bool: (默认值 = True)
-
add_content(bool) –bool: (默认值 = True)
export_to_document_tokens
export_to_document_tokens(*args, **kwargs)
导出为 DocTags 格式。
get_image
get_image(
doc: DoclingDocument, prov_index: int = 0
) -> Optional[Image]
返回此 DocItem 的图像。
如果此 DocItem 没有有效的 provenance,或者包含此 DocItem 的页面有效图像在 doc 中不可用,则此函数返回 None。
get_location_tokens
get_location_tokens(
doc: DoclingDocument,
new_line: str = "",
xsize: int = 500,
ysize: int = 500,
) -> str
获取 BaseCell 的位置字符串。
PictureItem
基类: FloatingItem
PictureItem。
方法
-
caption_text–计算字幕为单个文本。
-
export_to_doctags–将图片导出为文档标记格式。
-
export_to_document_tokens–导出为 DocTags 格式。
-
export_to_html–将图片导出为 HTML 格式。
-
export_to_markdown–将图片导出为 Markdown 格式。
-
get_image–返回此 FloatingItem 对应的图像。
-
get_location_tokens–获取 BaseCell 的位置字符串。
-
get_ref–get_ref。
属性
-
annotations(List[PictureDataType]) – -
captions(List[RefItem]) – -
children(List[RefItem]) – -
content_layer(ContentLayer) – -
footnotes(List[RefItem]) – -
image(Optional[ImageRef]) – -
label(Literal[PICTURE, CHART]) – -
model_config– -
parent(Optional[RefItem]) – -
prov(List[ProvenanceItem]) – -
references(List[RefItem]) – -
self_ref(str) –
annotations
annotations: List[PictureDataType] = []
content_layer
content_layer: ContentLayer = BODY
model_config
model_config = ConfigDict(extra='forbid')
self_ref
self_ref: str = Field(pattern=_JSON_POINTER_REGEX)
export_to_doctags
export_to_doctags(
doc: DoclingDocument,
new_line: str = "",
xsize: int = 500,
ysize: int = 500,
add_location: bool = True,
add_caption: bool = True,
add_content: bool = True,
)
将图片导出为文档标记格式。
参数
-
doc(DoclingDocument) –“DoclingDocument”
-
new_line(str, default:'') –str (默认值 = "") 已弃用
-
xsize(int, 默认值:500) –int: (默认值 = 500)
-
ysize(int) –int: (默认值 = 500)
-
add_location(bool, 默认值:True) –bool: (默认值 = True)
-
add_caption(bool, default:True) –bool: (默认值 = True)
-
add_content(bool) –bool: (默认值 = True)
export_to_document_tokens
export_to_document_tokens(*args, **kwargs)
导出为 DocTags 格式。
export_to_html
export_to_html(
doc: DoclingDocument,
add_caption: bool = True,
image_mode: ImageRefMode = PLACEHOLDER,
) -> str
将图片导出为 HTML 格式。
export_to_markdown
export_to_markdown(
doc: DoclingDocument,
add_caption: bool = True,
image_mode: ImageRefMode = EMBEDDED,
image_placeholder: str = "<!-- image -->",
) -> str
将图片导出为 Markdown 格式。
get_image
get_image(
doc: DoclingDocument, prov_index: int = 0
) -> Optional[Image]
返回此 FloatingItem 对应的图像。
此函数返回 self.image 中的 PIL 图像(如果可用)。否则,它使用 DocItem.get_image 获取此 FloatingItem 的图像。
特别是,当 self.image 为 None 时,如果此 FloatingItem 没有有效的来源信息或文档不包含所需页面的有效图像,则函数返回 None。
get_location_tokens
get_location_tokens(
doc: DoclingDocument,
new_line: str = "",
xsize: int = 500,
ysize: int = 500,
) -> str
获取 BaseCell 的位置字符串。
ImageRef
基类: BaseModel
ImageRef。
方法
-
from_pil–从 PIL Image 构建 ImageRef。
-
validate_mimetype–validate_mimetype。
属性
-
dpi(int) – -
mimetype(str) – -
pil_image(Optional[Image]) –返回 PIL Image。
-
size(Size) – -
uri(Union[AnyUrl, Path]) –
dpi
dpi: int
mimetype
mimetype: str
pil_image
pil_image: Optional[Image]
返回 PIL Image。
uri
uri: Union[AnyUrl, Path] = Field(union_mode="left_to_right")
from_pil
from_pil(image: Image, dpi: int) -> Self
从 PIL Image 构建 ImageRef。
validate_mimetype
validate_mimetype(v)
validate_mimetype。
PictureClassificationClass
基类: BaseModel
PictureClassificationData。
属性
-
class_name(str) – -
confidence(float) –
class_name
class_name: str
confidence
confidence: float
PictureClassificationData
基类: BasePictureData
PictureClassificationData。
属性
-
kind(Literal['classification']) – -
predicted_classes(List[PictureClassificationClass]) – -
provenance(str) –
kind
kind: Literal['classification'] = 'classification'
provenance
provenance: str
RefItem
基类: BaseModel
RefItem。
方法
属性
-
cref(str) – -
model_config–
cref
cref: str = Field(alias="$ref", pattern=_JSON_POINTER_REGEX)
model_config
model_config = ConfigDict(populate_by_name=True)
get_ref
get_ref()
get_ref。
BoundingBox
基类: BaseModel
BoundingBox。
方法
-
area–区域。
-
as_tuple–as_tuple。
-
enclosing_bbox–创建一个包含所有给定框的边界框。
-
expand_by_scale–expand_to_size。
-
from_tuple–from_tuple。
-
intersection_area_with–计算与另一个边界框的交集面积。
-
intersection_over_self–intersection_over_self。
-
intersection_over_union–intersection_over_union。
-
is_above–is_above。
-
is_horizontally_connected–is_horizontally_connected。
-
is_left_of–is_left_of。
-
is_strictly_above–is_strictly_above。
-
is_strictly_left_of–is_strictly_left_of。
-
normalized–normalized。
-
overlaps–重叠。
-
overlaps_horizontally–检查两个边界框是否水平重叠。
-
overlaps_vertically–检查两个边界框是否垂直重叠。
-
overlaps_vertically_with_iou–overlaps_y_with_iou。
-
resize_by_scale–resize_by_scale。
-
scale_to_size–scale_to_size。
-
scaled–scaled。
-
to_bottom_left_origin–to_bottom_left_origin。
-
to_top_left_origin–to_top_left_origin。
属性
-
b(float) – -
coord_origin(CoordOrigin) – -
height–高度。
-
l(float) – -
r(float) – -
t(float) – -
width–宽度。
b
b: float
height
height
高度。
l
l: float
r
r: float
t
t: float
width
width
宽度。
area
area() -> float
区域。
as_tuple
as_tuple() -> Tuple[float, float, float, float]
as_tuple。
from_tuple
from_tuple(coord: Tuple[float, ...], origin: CoordOrigin)
intersection_over_self
intersection_over_self(
other: BoundingBox, eps: float = 1e-06
) -> float
intersection_over_self。
intersection_over_union
intersection_over_union(
other: BoundingBox, eps: float = 1e-06
) -> float
intersection_over_union。
is_horizontally_connected
is_horizontally_connected(
elem_i: BoundingBox, elem_j: BoundingBox
) -> bool
is_horizontally_connected。
is_strictly_above
is_strictly_above(
other: BoundingBox, eps: float = 0.001
) -> bool
is_strictly_above。
is_strictly_left_of
is_strictly_left_of(
other: BoundingBox, eps: float = 0.001
) -> bool
is_strictly_left_of。
overlaps_vertically_with_iou
overlaps_vertically_with_iou(
other: BoundingBox, iou: float
) -> bool
overlaps_y_with_iou。
resize_by_scale
resize_by_scale(x_scale: float, y_scale: float)
resize_by_scale。
scaled
scaled(scale: float)
scaled。
to_bottom_left_origin
to_bottom_left_origin(page_height: float) -> BoundingBox
to_bottom_left_origin。
参数
-
page_height(float) –
to_top_left_origin
to_top_left_origin(page_height: float) -> BoundingBox
to_top_left_origin。
参数
-
page_height(float) –
CoordOrigin
基类: str, Enum
CoordOrigin。
属性
-
BOTTOMLEFT– -
TOPLEFT–
BOTTOMLEFT
BOTTOMLEFT = 'BOTTOMLEFT'
TOPLEFT
TOPLEFT = 'TOPLEFT'
ImageRefMode
基类: str, Enum
ImageRefMode。
属性
-
EMBEDDED– -
PLACEHOLDER– -
REFERENCED–
EMBEDDED
EMBEDDED = 'embedded'
PLACEHOLDER
PLACEHOLDER = 'placeholder'
REFERENCED
REFERENCED = 'referenced'