five

data-snapshot

收藏
Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/ajdajd/data-snapshot
下载链接
链接失效反馈
官方服务:
资源简介:
data-snapshot数据集是一个标注语料库,专为评估和开发从PDF文档中提取数据快照(包含统计、指标或结构化数据源的定量数据的图表或表格)的模型而设计。数据集包含JSON格式的标注文件,标注了数据快照的对象类别(图表/表格)和边界框位置(归一化坐标,左上角原点)。数据集结构包括按文档来源组织的标注文件、原始PDF文档、文档级元数据以及标注模式文件。标注遵循Data Snapshot Evaluation Format (v1.3)模式,包含标签映射、元数据和归一化边界框坐标。数据集支持英语、法语和西班牙语,适用于目标检测和图像分割任务。数据通过Label Studio人工标注生成,但许可和引用信息暂未确定。

The data-snapshot dataset is an annotated corpus designed for evaluating and developing models that extract data snapshots (charts or tables containing quantitative data from statistical, metric, or structured data sources) from PDF documents. The dataset includes annotation files in JSON format, labeling the object categories (charts/tables) and bounding box positions (normalized coordinates, top-left origin) of data snapshots. The dataset structure consists of annotation files organized by document source, original PDF documents, document-level metadata, and annotation schema files. Annotations follow the Data Snapshot Evaluation Format (v1.3) schema, including label mappings, metadata, and normalized bounding box coordinates. The dataset supports English, French, and Spanish, and is suitable for object detection and image segmentation tasks. The data was generated through manual annotation using Label Studio, but licensing and citation information is currently undetermined.
创建时间:
2026-04-24
原始信息汇总

数据集卡片:data-snapshot

数据集概述

data-snapshot 是一个用于评估和开发从 PDF 文档中提取数据快照(data snapshot)模型的标注语料库。数据快照定义为包含来自统计数据、指标或结构化数据源的定量数据的图表或表格。

任务类型

  • 目标检测(object-detection)
  • 图像分割(image-segmentation)

标签

  • pdf
  • document-layout-analysis
  • data-extraction

语言

  • 英语(en)
  • 法语(fr)
  • 西班牙语(es)

数据规模

  • n<1K(样本数量小于1000)

数据集结构

仓库目录组织结构如下:

ai4data/data-snapshot/ ├── annotations/<source>/per_document/.json # 每个文档的标注文件 ├── annotations/<source>/combined/.json # 按来源合并的JSON文件 ├── documents/<source>/.pdf # 原始PDF文件 ├── metadata/<source>/.json # 文档级元数据 ├── schemas/data-snapshot-eval-v1.3.schema.json # 标注文件模式 └── README.md

子集

  • annotations(标注)
    • JSON文件,包含数据快照信息:对象类别(Figure / Table)和边界框位置(归一化的 [x1, y1, x2, y2] 格式,左上角原点)
    • 遵循 data-snapshot-eval-v1.3.schema.json 模式
    • 提供按文档分开的文件或按来源合并的JSON文件
  • metadata(元数据)
    • 按文档提供

数据来源

  • UNHCR(联合国难民署)
  • PRWP(WIP)(世界银行政策研究工作论文,进行中)
  • Refugee(WIP)(难民相关,进行中)

标注模式(Schema v1.3)

标注文件遵循数据快照评估格式 v1.3。简化示例: json { // 标签映射 "label_map": { "1": "Figure", "2": "Table" }, // 文件元信息 "info": { "schema_version": "1.3", "type": "ground_truth", "dataset_id": "data-snapshot_unhcr", "created_at": "2026-04-17T12:00:00Z", "coordinate_system": { "type": "normalized_xyxy", "range": [0.0, 1.0], "origin": "top_left" } }, // 文档列表 "documents": [ { "doc_id": "1_advocacy_note_mineaction_-niger_eng.pdf", "doc_name": "1_advocacy_note_mineaction-niger_eng.pdf", "doc_path": "pdf_input/1_advocacy_note_mineaction-niger_eng.pdf" } ], // 逐页标注 "predictions": [ { "page_id": "1_advocacy_note_mineaction-niger_eng.pdf::p001", "doc_id": "1_advocacy_note_mineaction-niger_eng.pdf", "page_index": 0, "image": { "width_px": 2481, "height_px": 3508, "path": "images/1_advocacy_note_mineaction-_niger_eng.pdf_p001.png" }, "objects": [ { "id": "obj_001", "label": "Figure", "bbox": [0.1, 0.2, 0.8, 0.6] } ] } ] }

数据集创建

标注通过人工使用 Label Studio 工具生成。

许可信息

待定(TBD)

引用信息

待定(TBD)

搜集汇总
数据集介绍
main_image_url
构建方式
在数字化文档分析领域,从海量PDF文件中高效提取定量数据是一项关键挑战。为攻克这一难题,研究者构建了data-snapshot数据集,其核心目标在于为数据快照(即包含统计、指标或结构化数据源的图表)的自动识别与定位提供标准化评估基准。该数据集通过人工标注方式构建,标注团队借助Label Studio工具对来自联合国难民署等权威来源的PDF文档进行逐页标注,精确标注出每个页面中图表对象的类别(图形或表格)及其归一化边界框坐标。标注结果严格遵循Data Snapshot Evaluation Format v1.3规范,以JSON格式存储,并为每个文档提供独立的标注文件以及按来源合并的整合文件,同时辅以文档级别的元数据信息,构成了一个结构清晰、层次分明的标注语料库。
特点
data-snapshot数据集在构建理念与内容组织上展现出鲜明特色。其定义的数据快照概念精准聚焦于包含量化数据的图表,而非所有视觉元素,体现了对文档信息提取任务的深度理解。数据集涵盖英语、法语、西班牙语等多语种文档,来源多元,包括联合国难民署等权威机构,确保了数据内容的丰富性与代表性。在标注格式上,采用归一化的边界框坐标系统,原点位于左上角,坐标值归一化至0至1区间,这种设计便于模型处理不同尺寸的页面,增强了数据集的通用性。此外,数据集不仅提供逐文档的细粒度标注,还提供按来源合并的JSON文件,兼顾了精细研究与批量分析的双重需求。数据集的规模虽然不足千份文档,但每份文档均经过精心标注,质量可靠,为文档布局分析与数据提取模型的训练与评估提供了高质量的基准资源。
使用方法
使用data-snapshot数据集进行模型开发与评估时,研究者可以灵活地利用其组织良好的文件结构。首先,通过加载annotations子集中的JSON文件,可获得每个文档中数据快照的类别标签与边界框标注,这些信息可直接用于训练目标检测或图像分割模型。对于需要批量处理的任务,可以直接使用per_source合并的JSON文件。metadata子集则包含文档级别的元信息,可用于分析文档来源、语言分布等特征。在数据加载过程中,需注意标注文件中使用的predictions字段实际存储的是人工标注的真实值,这是继承自评估代码库的命名约定。研究者可以结合提供的JSON Schema文件精确解析数据格式,将归一化的边界框转换为模型所需的坐标系统,从而无缝地集成到现有的文档分析工作流中。
背景与挑战
背景概述
在数字化文档处理与信息抽取领域,从PDF等非结构化文档中精准定位并提取包含定量数据的图表(即数据快照)是一项关键而艰巨的任务。data-snapshot数据集应运而生,由相关研究机构于2026年创建,旨在为模型评估与开发提供标准化的标注语料。该数据集聚焦于定义“数据快照”为源自统计、指标或结构化数据源的图表,涵盖Figure与Table两类对象,其标注遵循Data Snapshot Evaluation Format (v1.3)规范,采用归一化边界框坐标。数据集整合了来自UNHCR等来源的多语言文档(英语、法语、西班牙语),显著推动了文档布局分析与数据抽取技术的研究进展,为相关领域树立了评估基准。
当前挑战
当前领域面临多重挑战。首先,PDF文档版面复杂多变,包含多栏布局、嵌套表格及装饰性元素,导致图表边界精准定位困难;同时,跨语言文档(如英、法、西班牙语)中的同一类数据快照在视觉与语义上存在差异,增加了模型泛化难度。在构建过程中,人工标注需严格界定图表的量化性质,避免将纯描述性图形纳入,且需处理低分辨率扫描件及多样页眉页脚干扰;此外,不同来源文档的元数据结构不统一,需设计鲁棒的归一化坐标方案(左上角原点)以兼容多种PDF渲染引擎的输出。
常用场景
经典使用场景
data-snapshot数据集专为PDF文档中数据快照(Data Snapshot)的检测与定位任务而构建,其核心应用场景聚焦于文档布局分析中的图表识别。该数据集包含来自联合国难民署等权威来源的PDF文档,标注了其中蕴含定量数据的图表与表格,并以归一化的边界框坐标形式提供精确的位置信息。经典的使用方式是利用该数据集训练目标检测模型(如Faster R-CNN、YOLO等系列),使其能够从复杂的学术报告、政策文件或统计数据PDF中自动识别并定位包含数值信息的数据快照,为后续的信息提取与结构化处理奠定基础。
解决学术问题
在文档分析与信息检索领域,从非结构化的PDF文档中自动提取结构化数据是一项长期挑战,尤其是识别包含关键统计数值的图表区域。data-snapshot数据集系统性地解决了这一学术难题,提供了一个带有精细标注的基准测试集。它使得研究者能够量化评估不同模型在数据快照识别任务上的性能,推动了文档布局分析从简单的文本或元素识别向语义化、定量化数据定位的演进。该数据集的提出,弥补了现有文档数据集在“数据密集型图表”这一细分维度上的标注缺失,显著促进了视觉文档理解领域的模型评估与对比研究。
衍生相关工作
data-snapshot数据集的发布催生了一系列衍生性研究工作,主要集中在两个方向:一是基于该数据集改进的视觉定位模型,如结合Transformer架构的DETR变体,在数据快照的细粒度识别上取得了更优性能;二是面向数据快照的内容理解工作,研究者在其基础上进一步扩展了图表内文本结构化解析(如表格单元格提取与数字识别)的数据标注,形成了“检测+识别”的联合任务基准。此外,该数据集的标注规范和评估协议(Data Snapshot Evaluation Format v1.3)被后续文档分析工作广泛借鉴,成为相关社区进行数据快照任务评测的通用参考框架之一。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作