SBS Figures

github2025-01-06 更新2025-01-13 收录

下载链接：

https://github.com/omron-sinicx/SBSFigures

下载链接

链接失效反馈

官方服务：

资源简介：

SBS Figures数据集包含100万张图和420万个问答对，可以通过Hugging Face下载。该数据集用于预训练图问答模型，支持从阶段合成的图像中生成多样化的主题和外观。

The SBS Figures Dataset contains 1 million images and 4.2 million question-answer pairs, which can be downloaded via Hugging Face. This dataset is designed for pre-training visual question answering (VQA) models, and supports generating diverse themes and appearances from stage-synthesized images.

创建时间：

2024-12-20

原始信息汇总

SBS Figures 数据集概述

数据集简介

数据集名称: SBS Figures
数据集规模: 包含100万张图表和420万对问答对
下载地址: Hugging Face Dataset

数据集生成流程

数据集生成流程包括以下步骤：

生成图表主题: 使用 data_topic.py 脚本生成图表主题。
生成JSON文件: 使用 json_make.py 脚本生成表示数据点的JSON文件。
添加颜色信息: 使用 add_color.py 脚本为JSON文件添加颜色信息。
生成图表PNG文件: 使用 create_chart.py 脚本生成图表PNG文件。
生成问答对: 使用 qa.py 脚本生成问答对。

模型

预训练模型:
- Donut: omron-sinicx/sbsfigures-pretrain-donut
- Pix2Struct: omron-sinicx/sbsfigures-pretrain-pix2struct
微调模型:
- Donut (ChartQA): omron-sinicx/sbsfigures-chartqa-donut
- Pix2Struct (ChartQA): omron-sinicx/sbsfigures-chartqa-pix2struct

代码与工具

Docker 设置: bash docker build -t sbsfigures:latest -f SBSFigures/Dockerfile SBSFigures docker run -it --rm -v SBSFigures:/app SBSFigures:latest /bin/bash
预训练代码:
- Donut: cd donut && bash pre-train_sbsfigures.sh
- Pix2Struct: cd pix2struct && bash pre-train_sbsfigures.sh
微调代码:
- Donut: cd donut && bash finetune_chartqa.sh
- Pix2Struct: cd pix2struct && bash finetune_chartqa.sh
测试代码:
- Donut: cd donut && bash test_chartqa.sh
- Pix2Struct: cd pix2struct && bash test_chartqa.sh

自定义与扩展

自定义字体: 编辑 data_gen/gpt/font.txt 文件以添加或删除字体。
生成特定领域的图表: 修改 data_gen/gpt/data_topic.py 中的提示以生成特定领域的图表。
添加新的图表类型: 在 data_gen/code_format 中定义 code_format，并在 data_gen/example/data_point/ 中添加示例。

引用

如果您在研究中使用了本数据集，请引用以下论文： bibtex @article{shinoda2024sbsfigurespretrainingfigure, title={SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images}, author={Risa Shinoda and Kuniaki Saito and Shohei Tanaka and Tosho Hirasawa and Yoshitaka Ushiku}, year={2024}, journal={arXiv preprint arXiv:2412.17606}, url={https://arxiv.org/abs/2412.17606} }

搜集汇总

数据集介绍

构建方式

SBS Figures数据集的构建采用了分阶段的图像合成方法，通过一系列Python脚本实现。首先，`data_topic.py`生成图表主题，随后`json_make.py`创建表示数据点的JSON文件。接着，`add_color.py`为JSON文件添加颜色信息，`create_chart.py`生成图表PNG文件，最后`qa.py`基于数据点生成问答对。整个过程可通过一个bash脚本自动化执行，且支持使用GPT模型进行生成，尽管需注意生成成本。

特点

SBS Figures数据集包含100万张图表和420万个问答对，涵盖了多样化的主题和外观。其独特之处在于通过分阶段合成的方式生成图表，确保了数据的多样性和精确性。数据集不仅适用于图表的视觉理解任务，还提供了丰富的问答对，支持复杂的问答推理任务。此外，数据集支持自定义字体、领域特定图表生成以及新图表类型的添加，具有高度的灵活性和扩展性。

使用方法

SBS Figures数据集的使用方法包括预训练和微调两个主要步骤。用户可以通过Hugging Face下载预训练模型，并使用提供的Docker镜像进行环境配置。预训练代码和微调代码分别位于`donut`和`pix2struct`目录下，用户可通过运行相应的bash脚本进行模型训练。测试代码则用于评估模型性能，生成与真实结果的对比文件并计算准确率。此外，用户可通过修改配置文件自定义字体、生成特定领域的图表或添加新的图表类型，以满足个性化需求。

背景与挑战

背景概述

SBS Figures数据集由Risa Shionoda、Kuniaki Saito、Shohei Tanaka、Tosho Hirasawa和Yoshitaka Ushiku等研究人员于2024年提出，旨在通过阶段合成的图像进行图问答（Figure QA）任务的预训练。该数据集包含100万张图像和420万个问答对，涵盖了多样化的主题和外观，能够有效支持图问答模型的训练与评估。SBS Figures的生成流程通过自动化脚本实现，结合了GPT模型生成图像和问答对，显著提升了图问答任务的多样性和复杂性。该数据集在文档理解与智能领域具有重要影响力，为图问答任务提供了丰富的训练资源。

当前挑战

SBS Figures数据集在构建和应用过程中面临多重挑战。首先，图问答任务本身具有较高的复杂性，要求模型能够准确理解图像中的信息并生成相应的答案，这对模型的视觉理解和语言生成能力提出了极高的要求。其次，数据集的生成过程依赖于GPT模型，虽然能够生成多样化的图像和问答对，但生成成本较高，且需要精细调整生成参数以确保数据的质量和多样性。此外，数据集的多样性和复杂性也带来了模型训练的挑战，如何在保证模型泛化能力的同时，避免过拟合和欠拟合问题，是研究者需要解决的关键问题。

常用场景

经典使用场景

SBS Figures数据集在视觉问答（Visual Question Answering, VQA）领域具有广泛的应用，尤其是在图表理解与问答任务中。该数据集通过生成多样化的图表及其对应的问答对，为模型提供了丰富的训练数据，帮助模型更好地理解图表中的信息并生成准确的回答。这一数据集在预训练和微调阶段均表现出色，能够显著提升模型在图表问答任务中的表现。

实际应用

在实际应用中，SBS Figures数据集可广泛应用于金融、医疗、教育等领域。例如，在金融领域，模型可以利用该数据集生成的图表问答对，自动分析股票走势图或财务报表中的关键信息；在医疗领域，模型可以通过理解医学图表，辅助医生进行诊断决策；在教育领域，该数据集可用于开发智能教学系统，帮助学生更好地理解复杂图表。

衍生相关工作

SBS Figures数据集的发布催生了一系列相关研究工作。例如，基于该数据集，研究人员开发了多种预训练模型，如Donut和Pix2Struct，这些模型在图表问答任务中表现出色。此外，该数据集还为UniChart等开源项目提供了数据支持，推动了图表理解领域的开源生态发展。这些衍生工作不仅扩展了数据集的应用范围，还为图表理解技术的进步提供了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集