five

SBS Figures

收藏
github2025-01-06 更新2025-01-13 收录
下载链接:
https://github.com/omron-sinicx/SBSFigures
下载链接
链接失效反馈
官方服务:
资源简介:
SBS Figures数据集包含100万张图和420万个问答对,可以通过Hugging Face下载。该数据集用于预训练图问答模型,支持从阶段合成的图像中生成多样化的主题和外观。

The SBS Figures Dataset contains 1 million images and 4.2 million question-answer pairs, which can be downloaded via Hugging Face. This dataset is designed for pre-training visual question answering (VQA) models, and supports generating diverse themes and appearances from stage-synthesized images.
创建时间:
2024-12-20
原始信息汇总

SBS Figures 数据集概述

数据集简介

  • 数据集名称: SBS Figures
  • 数据集规模: 包含100万张图表和420万对问答对
  • 下载地址: Hugging Face Dataset

数据集生成流程

数据集生成流程包括以下步骤:

  1. 生成图表主题: 使用 data_topic.py 脚本生成图表主题。
  2. 生成JSON文件: 使用 json_make.py 脚本生成表示数据点的JSON文件。
  3. 添加颜色信息: 使用 add_color.py 脚本为JSON文件添加颜色信息。
  4. 生成图表PNG文件: 使用 create_chart.py 脚本生成图表PNG文件。
  5. 生成问答对: 使用 qa.py 脚本生成问答对。

模型

代码与工具

  • Docker 设置: bash docker build -t sbsfigures:latest -f SBSFigures/Dockerfile SBSFigures docker run -it --rm -v SBSFigures:/app SBSFigures:latest /bin/bash

  • 预训练代码:

    • Donut: cd donut && bash pre-train_sbsfigures.sh
    • Pix2Struct: cd pix2struct && bash pre-train_sbsfigures.sh
  • 微调代码:

    • Donut: cd donut && bash finetune_chartqa.sh
    • Pix2Struct: cd pix2struct && bash finetune_chartqa.sh
  • 测试代码:

    • Donut: cd donut && bash test_chartqa.sh
    • Pix2Struct: cd pix2struct && bash test_chartqa.sh

自定义与扩展

  • 自定义字体: 编辑 data_gen/gpt/font.txt 文件以添加或删除字体。
  • 生成特定领域的图表: 修改 data_gen/gpt/data_topic.py 中的提示以生成特定领域的图表。
  • 添加新的图表类型: 在 data_gen/code_format 中定义 code_format,并在 data_gen/example/data_point/ 中添加示例。

引用

如果您在研究中使用了本数据集,请引用以下论文: bibtex @article{shinoda2024sbsfigurespretrainingfigure, title={SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images}, author={Risa Shinoda and Kuniaki Saito and Shohei Tanaka and Tosho Hirasawa and Yoshitaka Ushiku}, year={2024}, journal={arXiv preprint arXiv:2412.17606}, url={https://arxiv.org/abs/2412.17606} }

搜集汇总
数据集介绍
main_image_url
构建方式
SBS Figures数据集的构建采用了分阶段的图像合成方法,通过一系列Python脚本实现。首先,`data_topic.py`生成图表主题,随后`json_make.py`创建表示数据点的JSON文件。接着,`add_color.py`为JSON文件添加颜色信息,`create_chart.py`生成图表PNG文件,最后`qa.py`基于数据点生成问答对。整个过程可通过一个bash脚本自动化执行,且支持使用GPT模型进行生成,尽管需注意生成成本。
特点
SBS Figures数据集包含100万张图表和420万个问答对,涵盖了多样化的主题和外观。其独特之处在于通过分阶段合成的方式生成图表,确保了数据的多样性和精确性。数据集不仅适用于图表的视觉理解任务,还提供了丰富的问答对,支持复杂的问答推理任务。此外,数据集支持自定义字体、领域特定图表生成以及新图表类型的添加,具有高度的灵活性和扩展性。
使用方法
SBS Figures数据集的使用方法包括预训练和微调两个主要步骤。用户可以通过Hugging Face下载预训练模型,并使用提供的Docker镜像进行环境配置。预训练代码和微调代码分别位于`donut`和`pix2struct`目录下,用户可通过运行相应的bash脚本进行模型训练。测试代码则用于评估模型性能,生成与真实结果的对比文件并计算准确率。此外,用户可通过修改配置文件自定义字体、生成特定领域的图表或添加新的图表类型,以满足个性化需求。
背景与挑战
背景概述
SBS Figures数据集由Risa Shionoda、Kuniaki Saito、Shohei Tanaka、Tosho Hirasawa和Yoshitaka Ushiku等研究人员于2024年提出,旨在通过阶段合成的图像进行图问答(Figure QA)任务的预训练。该数据集包含100万张图像和420万个问答对,涵盖了多样化的主题和外观,能够有效支持图问答模型的训练与评估。SBS Figures的生成流程通过自动化脚本实现,结合了GPT模型生成图像和问答对,显著提升了图问答任务的多样性和复杂性。该数据集在文档理解与智能领域具有重要影响力,为图问答任务提供了丰富的训练资源。
当前挑战
SBS Figures数据集在构建和应用过程中面临多重挑战。首先,图问答任务本身具有较高的复杂性,要求模型能够准确理解图像中的信息并生成相应的答案,这对模型的视觉理解和语言生成能力提出了极高的要求。其次,数据集的生成过程依赖于GPT模型,虽然能够生成多样化的图像和问答对,但生成成本较高,且需要精细调整生成参数以确保数据的质量和多样性。此外,数据集的多样性和复杂性也带来了模型训练的挑战,如何在保证模型泛化能力的同时,避免过拟合和欠拟合问题,是研究者需要解决的关键问题。
常用场景
经典使用场景
SBS Figures数据集在视觉问答(Visual Question Answering, VQA)领域具有广泛的应用,尤其是在图表理解与问答任务中。该数据集通过生成多样化的图表及其对应的问答对,为模型提供了丰富的训练数据,帮助模型更好地理解图表中的信息并生成准确的回答。这一数据集在预训练和微调阶段均表现出色,能够显著提升模型在图表问答任务中的表现。
实际应用
在实际应用中,SBS Figures数据集可广泛应用于金融、医疗、教育等领域。例如,在金融领域,模型可以利用该数据集生成的图表问答对,自动分析股票走势图或财务报表中的关键信息;在医疗领域,模型可以通过理解医学图表,辅助医生进行诊断决策;在教育领域,该数据集可用于开发智能教学系统,帮助学生更好地理解复杂图表。
衍生相关工作
SBS Figures数据集的发布催生了一系列相关研究工作。例如,基于该数据集,研究人员开发了多种预训练模型,如Donut和Pix2Struct,这些模型在图表问答任务中表现出色。此外,该数据集还为UniChart等开源项目提供了数据支持,推动了图表理解领域的开源生态发展。这些衍生工作不仅扩展了数据集的应用范围,还为图表理解技术的进步提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作