five

sbsfigures

收藏
Hugging Face2024-12-30 更新2024-12-30 收录
下载链接:
https://huggingface.co/datasets/omron-sinicx/sbsfigures
下载链接
链接失效反馈
官方服务:
资源简介:
SBSFigures数据集是一个用于预训练图/表问答模型的数据集。该数据集通过分阶段的合成图像生成方法,创建了具有完整注释的图表数据,并生成了密集的问答注释。数据集包含图像、查询、标签和JSON格式的数据,训练集包含4174808个样本,总大小为121514597855.784字节。该数据集的设计旨在高效创建多样化的主题和外观图表,同时最小化代码错误。
创建时间:
2024-12-22
搜集汇总
数据集介绍
main_image_url
构建方式
SBSFigures数据集的构建采用了阶段式合成图像的方法,旨在解决大规模图表问答数据集构建中的难题。通过自动化流程,该数据集生成了包含完整可视化数据注释和密集问答注释的图表图像,避免了手动标注的繁琐过程。这一阶段式管道不仅显著减少了代码错误,还确保了图表主题和外观的多样性,从而高效地生成了大量高质量的合成图像。
特点
SBSFigures数据集的特点在于其丰富的多样性和高质量的注释。数据集中的每张图表图像均附有详细的查询和标签信息,涵盖了广泛的图表类型和主题。此外,数据集通过自动化生成流程,确保了图表数据的完整性和问答注释的密集性,为图表问答模型的预训练提供了坚实的基础。其规模庞大,包含超过400万条样本,能够有效支持深度学习模型的训练需求。
使用方法
SBSFigures数据集主要用于图表问答模型的预训练。用户可以通过HuggingFace平台下载数据集,并利用提供的预训练模型权重进行模型初始化。数据集支持多种模型架构,如Donut和Pix2Struct,用户可根据任务需求选择相应的预训练或微调模型。通过使用该数据集,研究人员能够在有限的真实图表数据基础上,快速实现高效的模型训练和性能提升。
背景与挑战
背景概述
SBSFigures数据集由Risa Shionoda、Kuniaki Saito、Shohei Tanaka、Tosho Hirasawa和Yoshitaka Ushiku等研究人员于2024年提出,旨在解决大规模图表问答(Figure QA)数据集的构建难题。该数据集通过分阶段合成图像的方法,生成了包含完整注释的图表数据,并密集标注了问答对,避免了传统手动标注的繁琐过程。SBSFigures的提出不仅显著提升了图表问答模型的预训练效果,还为在有限真实数据下进行高效训练提供了可能。该数据集的研究背景源于图表问答领域对高质量、多样化数据的需求,其创新性的构建方法为相关领域的研究提供了新的思路和工具。
当前挑战
SBSFigures数据集在构建过程中面临多重挑战。首先,图表问答领域需要处理复杂的图表类型和多样化的数据分布,如何生成具有广泛代表性的图表数据是一个关键问题。其次,直接使用大语言模型(LLMs)生成图表时,常遇到代码错误、图表相似度高以及内容重复等问题,影响了数据的多样性和质量。SBSFigures通过分阶段合成的方法,有效减少了这些技术难题,但仍需确保生成图表的多样性和准确性。此外,如何在没有手动标注的情况下生成高质量的问答对,也是数据集构建中的一大挑战。SBSFigures通过自动化流程解决了这一问题,但其在实际应用中的泛化能力仍需进一步验证。
常用场景
经典使用场景
SBSFigures数据集在图表问答(Figure/Chart QA)模型的预训练中具有重要应用。通过其阶段化合成图像的流程,该数据集能够生成多样化的图表,并附带完整的可视化数据注释和密集的问答注释。这使得研究人员能够在无需手动标注的情况下,高效地训练和优化图表问答模型,特别是在处理复杂图表数据时表现出色。
实际应用
在实际应用中,SBSFigures数据集被广泛用于图表问答系统的开发与优化。例如,在金融、医疗和教育等领域,图表问答系统能够帮助用户快速从复杂图表中提取关键信息。通过使用该数据集预训练的模型,系统能够更准确地理解和回答与图表相关的问题,提升用户体验和决策效率。
衍生相关工作
SBSFigures数据集的发布催生了一系列相关研究工作。基于该数据集,研究人员开发了多种预训练模型,如Donut和Pix2Struct,并在ChartQA任务中进行了微调。这些模型在图表问答任务中表现出色,进一步推动了图表理解与问答技术的发展。此外,该数据集还为其他相关领域的研究提供了宝贵的数据资源,促进了跨学科的创新与合作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作