five

版面结构分析数据集

收藏
魔搭社区2026-01-08 更新2024-11-16 收录
下载链接:
https://modelscope.cn/datasets/irhawks/layout-det
下载链接
链接失效反馈
官方服务:
资源简介:
版面结构分析任务(习惯称为Document Layout Analysis,简称DLA)以文档图像为输入,输出得到文档图像中的各类元素及其位置。其中版面元素的类别有以下七个:正文文本、章节标题、行间公式、文档插图、文档附表、浮动标题、其他类型。正文文本在标注时,以一个段落为一个元素,多个段落标为多个正文文本元素。

The layout structure analysis task, which is conventionally named Document Layout Analysis and abbreviated as DLA, takes document images as input and outputs various elements within the document images along with their positions. The categories of layout elements include the following seven types: body text, section headers, inline formulas, document illustrations, document tables, floating captions, and other types. When annotating body text, each paragraph is treated as one element, and multiple paragraphs will be annotated as multiple body text elements.
提供机构:
maas
创建时间:
2024-11-05
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
版面结构分析数据集是一个专注于文档图像结构分析与内容识别的数据集,包含多个子任务如页面结构分析、分栏区域检测等,旨在帮助用户定位文档中的不同区域并识别其类型。数据集采用Apache License 2.0许可,适用于文档图像处理和分析任务。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务