SBS Figures
收藏github2025-01-06 更新2025-01-13 收录
下载链接:
https://github.com/omron-sinicx/SBSFigures
下载链接
链接失效反馈官方服务:
资源简介:
SBS Figures数据集包含100万张图和420万个问答对,可以通过Hugging Face下载。该数据集用于预训练图问答模型,支持从阶段合成的图像中生成多样化的主题和外观。
The SBS Figures Dataset contains 1 million images and 4.2 million question-answer pairs, which can be downloaded via Hugging Face. This dataset is designed for pre-training visual question answering (VQA) models, and supports generating diverse themes and appearances from stage-synthesized images.
创建时间:
2024-12-20
原始信息汇总
SBS Figures 数据集概述
数据集简介
- 数据集名称: SBS Figures
- 数据集规模: 包含100万张图表和420万对问答对
- 下载地址: Hugging Face Dataset
数据集生成流程
数据集生成流程包括以下步骤:
- 生成图表主题: 使用
data_topic.py脚本生成图表主题。 - 生成JSON文件: 使用
json_make.py脚本生成表示数据点的JSON文件。 - 添加颜色信息: 使用
add_color.py脚本为JSON文件添加颜色信息。 - 生成图表PNG文件: 使用
create_chart.py脚本生成图表PNG文件。 - 生成问答对: 使用
qa.py脚本生成问答对。
模型
- 预训练模型:
- 微调模型:
- Donut (ChartQA): omron-sinicx/sbsfigures-chartqa-donut
- Pix2Struct (ChartQA): omron-sinicx/sbsfigures-chartqa-pix2struct
代码与工具
-
Docker 设置: bash docker build -t sbsfigures:latest -f SBSFigures/Dockerfile SBSFigures docker run -it --rm -v SBSFigures:/app SBSFigures:latest /bin/bash
-
预训练代码:
- Donut:
cd donut && bash pre-train_sbsfigures.sh - Pix2Struct:
cd pix2struct && bash pre-train_sbsfigures.sh
- Donut:
-
微调代码:
- Donut:
cd donut && bash finetune_chartqa.sh - Pix2Struct:
cd pix2struct && bash finetune_chartqa.sh
- Donut:
-
测试代码:
- Donut:
cd donut && bash test_chartqa.sh - Pix2Struct:
cd pix2struct && bash test_chartqa.sh
- Donut:
自定义与扩展
- 自定义字体: 编辑
data_gen/gpt/font.txt文件以添加或删除字体。 - 生成特定领域的图表: 修改
data_gen/gpt/data_topic.py中的提示以生成特定领域的图表。 - 添加新的图表类型: 在
data_gen/code_format中定义code_format,并在data_gen/example/data_point/中添加示例。
引用
如果您在研究中使用了本数据集,请引用以下论文: bibtex @article{shinoda2024sbsfigurespretrainingfigure, title={SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images}, author={Risa Shinoda and Kuniaki Saito and Shohei Tanaka and Tosho Hirasawa and Yoshitaka Ushiku}, year={2024}, journal={arXiv preprint arXiv:2412.17606}, url={https://arxiv.org/abs/2412.17606} }
搜集汇总
数据集介绍

构建方式
SBS Figures数据集的构建采用了分阶段的图像合成方法,通过一系列Python脚本实现。首先,`data_topic.py`生成图表主题,随后`json_make.py`创建表示数据点的JSON文件。接着,`add_color.py`为JSON文件添加颜色信息,`create_chart.py`生成图表PNG文件,最后`qa.py`基于数据点生成问答对。整个过程可通过一个bash脚本自动化执行,且支持使用GPT模型进行生成,尽管需注意生成成本。
特点
SBS Figures数据集包含100万张图表和420万个问答对,涵盖了多样化的主题和外观。其独特之处在于通过分阶段合成的方式生成图表,确保了数据的多样性和精确性。数据集不仅适用于图表的视觉理解任务,还提供了丰富的问答对,支持复杂的问答推理任务。此外,数据集支持自定义字体、领域特定图表生成以及新图表类型的添加,具有高度的灵活性和扩展性。
使用方法
SBS Figures数据集的使用方法包括预训练和微调两个主要步骤。用户可以通过Hugging Face下载预训练模型,并使用提供的Docker镜像进行环境配置。预训练代码和微调代码分别位于`donut`和`pix2struct`目录下,用户可通过运行相应的bash脚本进行模型训练。测试代码则用于评估模型性能,生成与真实结果的对比文件并计算准确率。此外,用户可通过修改配置文件自定义字体、生成特定领域的图表或添加新的图表类型,以满足个性化需求。
背景与挑战
背景概述
SBS Figures数据集由Risa Shionoda、Kuniaki Saito、Shohei Tanaka、Tosho Hirasawa和Yoshitaka Ushiku等研究人员于2024年提出,旨在通过阶段合成的图像进行图问答(Figure QA)任务的预训练。该数据集包含100万张图像和420万个问答对,涵盖了多样化的主题和外观,能够有效支持图问答模型的训练与评估。SBS Figures的生成流程通过自动化脚本实现,结合了GPT模型生成图像和问答对,显著提升了图问答任务的多样性和复杂性。该数据集在文档理解与智能领域具有重要影响力,为图问答任务提供了丰富的训练资源。
当前挑战
SBS Figures数据集在构建和应用过程中面临多重挑战。首先,图问答任务本身具有较高的复杂性,要求模型能够准确理解图像中的信息并生成相应的答案,这对模型的视觉理解和语言生成能力提出了极高的要求。其次,数据集的生成过程依赖于GPT模型,虽然能够生成多样化的图像和问答对,但生成成本较高,且需要精细调整生成参数以确保数据的质量和多样性。此外,数据集的多样性和复杂性也带来了模型训练的挑战,如何在保证模型泛化能力的同时,避免过拟合和欠拟合问题,是研究者需要解决的关键问题。
常用场景
经典使用场景
SBS Figures数据集在视觉问答(Visual Question Answering, VQA)领域具有广泛的应用,尤其是在图表理解与问答任务中。该数据集通过生成多样化的图表及其对应的问答对,为模型提供了丰富的训练数据,帮助模型更好地理解图表中的信息并生成准确的回答。这一数据集在预训练和微调阶段均表现出色,能够显著提升模型在图表问答任务中的表现。
实际应用
在实际应用中,SBS Figures数据集可广泛应用于金融、医疗、教育等领域。例如,在金融领域,模型可以利用该数据集生成的图表问答对,自动分析股票走势图或财务报表中的关键信息;在医疗领域,模型可以通过理解医学图表,辅助医生进行诊断决策;在教育领域,该数据集可用于开发智能教学系统,帮助学生更好地理解复杂图表。
衍生相关工作
SBS Figures数据集的发布催生了一系列相关研究工作。例如,基于该数据集,研究人员开发了多种预训练模型,如Donut和Pix2Struct,这些模型在图表问答任务中表现出色。此外,该数据集还为UniChart等开源项目提供了数据支持,推动了图表理解领域的开源生态发展。这些衍生工作不仅扩展了数据集的应用范围,还为图表理解技术的进步提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成



