CoSyn-400K

Name: CoSyn-400K
Creator: Allen Institute for AI
Published: 2025-02-24 03:33:31
License: 暂无描述

Hugging Face2025-02-24 更新2025-02-25 收录

下载链接：

https://huggingface.co/datasets/allenai/CoSyn-400K

下载链接

链接失效反馈

官方服务：

资源简介：

CoSyn-400k是一个包含合成问题-答案对的集合，这些问题-答案对是关于各种计算机生成图像的。数据集通过使用Claude大型语言模型生成可以渲染图像的代码，并使用GPT-4o mini生成基于代码的问题-答案对（不使用渲染的图像）。这个数据集适用于多样化的计算机生成图像的视觉问题回答任务。

提供机构：

Allen Institute for AI

创建时间：

2025-02-24

搜集汇总

数据集介绍

构建方式

CoSyn-400K数据集的构建是通过运用Claude大型语言模型生成代码，进而绘制图像，同时使用GPT-4o mini生成基于代码的问答对，而无需使用渲染后的图像。该数据集包含了多种不同计算机生成图像的合成问答对。

特点

CoSyn-400K数据集的特点在于其图像和问答对均为合成，覆盖了从图表到表格等多种类型，且每个图像都匹配有多个问答对，为视觉问答任务提供了丰富的训练和验证资源。

使用方法

使用CoSyn-400K数据集时，用户可以通过指定config_name来加载不同的子集，如chart、chemical等。每个子集都包含训练和验证分集，可以通过HuggingFace的datasets库加载并直接使用图像和问答对进行模型训练或验证。

背景与挑战

背景概述

CoSyn-400K数据集是一组关于计算机生成图像的合成问题-答案对集合，由Claude大型语言模型生成代码以渲染图像，并使用GPT-4o mini基于代码生成问题-答案对而创建。该数据集由Allen AI研发，旨在推动视觉问题回答领域的研究，其开源代码可在GitHub上获取。CoSyn-400K数据集自推出以来，因其多样化的图像和问题-答案对，在视觉问题回答研究中具有重要影响力。

当前挑战

在研究领域，CoSyn-400K数据集面临的挑战包括如何有效利用合成数据提高模型的泛化能力，以及如何在保证数据质量的同时处理大规模数据集。在构建过程中，数据集创建者面临的挑战是如何确保由语言模型生成的问题-答案对与渲染的图像具有相关性，并且如何维持数据集在多种配置（如chart, chemical, circuit等）下的一致性和准确性。

常用场景

经典使用场景

CoSyn-400K数据集广泛应用于计算机视觉与自然语言处理领域，其经典使用场景主要涉及图像理解与问题回答。研究人员可利用该数据集训练模型，以实现对计算机生成图像内容进行准确的问题回答，进而提升视觉问答系统的智能水平。

衍生相关工作

基于CoSyn-400K数据集，学术界衍生出了一系列相关研究工作，包括对数据集进行扩展和改进，开发新的视觉问答模型，以及探索跨领域图像理解的新方法。这些工作进一步推动了视觉问答技术的发展，并为人工智能领域带来了新的研究思路。

数据集最近研究