CoSyn400K

Name: CoSyn400K
Creator: 宾夕法尼亚大学,艾伦人工智能研究所
Published: 2025-02-21 02:55:30
License: 暂无描述

arXiv2025-02-21 更新2025-02-25 收录

下载链接：

https://yueyang1996.github.io/cosyn/

下载链接

链接失效反馈

官方服务：

资源简介：

CoSyn400K是一个大规模的合成视觉语言数据集，由宾夕法尼亚大学和艾伦人工智能研究所的研究人员创建。该数据集包含400K个图像和270万行视觉语言指令调优数据，旨在帮助视觉语言模型更好地理解和处理富含文本的图像。数据集通过利用编码能力强大的文本大型语言模型自动生成合成数据，涵盖了图表、文档、数学问题、表格、图表、向量图形、乐谱、电路图和化学结构等九类文本丰富的图像。

CoSyn400K is a large-scale synthetic vision-and-language dataset created by researchers from the University of Pennsylvania and the Allen Institute for AI. This dataset contains 400K images and 2.7 million lines of vision-and-language instruction tuning data, aiming to help vision-and-language models better understand and process text-rich images. The dataset automatically generates synthetic data by leveraging large language models (LLMs) with strong coding capabilities for text, covering nine categories of text-rich images including charts, documents, mathematical problems, tables, charts, vector graphics, sheet music, circuit diagrams, and chemical structures.

提供机构：

宾夕法尼亚大学,艾伦人工智能研究所

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

CoSyn400K数据集的构建过程主要依赖于文本生成代码的能力。首先，通过自然语言描述输入目标领域（如“营养成分标签”），CoSyn利用大型语言模型（LLMs）生成相应的代码（Python、HTML、LaTeX等）。接着，利用这些代码作为文本表示，再次使用LLMs生成高质量的指令调优数据。最终，CoSyn构建了一个包含400K图像和2.7M行视觉语言指令调优数据的庞大数据集。

特点

CoSyn400K数据集的特点在于其多样性和高质量。该数据集涵盖了9个类别的文本丰富图像，包括图表、文档、数学问题、表格、图表、矢量图形、乐谱、电路图和化学结构，确保了数据集的广泛性和实用性。此外，CoSyn利用LLMs生成代码，再由代码生成图像，从而确保了图像的真实性和多样性。

使用方法

CoSyn400K数据集的使用方法主要分为以下几个步骤：首先，根据具体任务选择合适的图像类型和渲染工具；其次，使用LLMs生成代码；然后，执行代码生成图像；最后，利用代码作为上下文，再次使用LLMs生成文本指令调优数据。通过这种方式，CoSyn400K数据集可以为视觉语言模型提供高质量的训练数据，从而提高模型在理解文本丰富图像方面的能力。

背景与挑战

背景概述

CoSyn400K数据集是一项由宾夕法尼亚大学和艾伦人工智能研究所的研究团队开发的重要项目，旨在解决视觉语言模型（VLMs）在处理富文本图像（如图表和文档）时的性能瓶颈。这些模型在理解自然图像方面表现出色，但在处理具有丰富文本内容的图像时，由于缺乏多样化的视觉语言数据而遇到困难。CoSyn框架利用文本语言模型（LLMs）的编程能力自动生成合成文本丰富的多模态数据，以解决这一挑战。该框架通过提示LLM生成代码（如Python、HTML、LaTeX等）来渲染合成图像，并以代码作为合成图像的文本表示，进一步生成高质量的指令微调数据。CoSyn400K数据集包含了40万个图像和270万行视觉语言指令微调数据，已在七个基准测试中展示出最先进的性能，超越了Llama 3.2等开源模型以及GPT-4V和Gemini 1.5 Flash等专有模型。此外，CoSyn还能生成合成指向数据，使VLMs能够在输入图像中定位信息，展示其在开发多模态智能体方面的潜力。

当前挑战

CoSyn400K数据集面临的主要挑战包括：1) 解决领域问题：富文本图像理解，如图表、文档、图表、标志、标签和屏幕截图等，这些图像通常需要文本理解和空间推理，而当前模型由于高质量、逼真和多样化的视觉语言数据集的有限可用性而难以进行有效处理。2) 构建过程中遇到的挑战：合成数据的生成依赖于LLMs的编程能力，需要高质量的提示和渲染流程来确保数据的多样性和现实性。对于高度专业或代表性不足的领域，生成足够多样化的数据仍然具有挑战性，可能需要仔细的提示工程或渲染工具的额外定制。此外，确保合成数据的关联性和覆盖范围仍然需要领域专业知识。最后，合成数据可能无法完全捕捉现实世界数据的复杂性，因此在某些情况下可能需要进一步提高多样性和现实性以更好地支持模型。

常用场景

经典使用场景

CoSyn400K数据集主要用于训练视觉语言模型（VLMs），特别是针对理解丰富文本的图像，如图表和文档。通过代码指导的合成多模态数据生成，CoSyn能够自动创建高质量的指令调整数据，从而提高VLMs在这些领域的性能。例如，在NutritionQA任务中，CoSyn能够生成7K个合成的营养标签样本，用于微调模型，使得模型在零样本情况下超越了大多数开源VLMs。

衍生相关工作

CoSyn400K数据集衍生了与视觉语言模型理解和推理丰富文本图像相关的研究。例如，CoSyn可以生成合成指向数据，用于训练VLMs进行点击预测，从而提高其在代理任务中的性能。此外，CoSyn还可以生成思维链推理数据，用于提高VLMs在需要多跳推理的任务上的性能。

数据集最近研究