AI2D-Caption

Hugging Face2024-09-03 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/abhayzala/AI2D-Caption

下载链接

链接失效反馈

官方服务：

资源简介：

AI2D-Caption数据集基于AI2D数据集，用于支持DiagrammerGPT框架中的布局到文本生成任务。数据集包含训练数据和测试数据，其中训练数据分为通过GPT-4v和LLaVA 1.5模型生成的两种类型。数据结构包括图像、实体信息、关系描述和图注等。数据集的目的是为了训练和评估文本到图表生成的模型。

创建时间：

2024-09-02

原始信息汇总

AI2D-Caption 数据集

概述

AI2D-Caption 数据集是基于 AI2D 数据集构建的，主要用于文本到图像的生成任务。该数据集包含了用于布局到文本生成的训练数据和测试数据，以及用于规划器和审计器 LLM 模型的上下文示例和训练数据。

文件结构

布局到文本生成训练数据

ai2d_caption_gpt4v.json：通过 GPT-4v 模型创建的训练数据。
ai2d_caption_llava_15.json：通过 LLaVA 1.5 模型创建的训练数据。

推荐使用 ai2d_caption_gpt4v.json 文件，因为其数据质量更高。

LLM 上下文示例/训练数据

planner_llm_training_examples：规划器 LLM 模型的上下文/训练示例。
auditor_llm_training_examples：审计器 LLM 模型的上下文/训练示例。

测试数据

ai2d_caption_test.json：用于图表生成的测试数据。

数据结构

布局到文本生成模型训练数据

json [ { "image": "...", "entities": { "...": { "id": "...", "type": "...", "bounds": [ x1, y1, x2, y2 ], "label": "...", }, ... }, "caption": "..." }, ... ]

LLM 上下文示例/训练数据

json [ { "image": "...", "entities": { "...": { "id": "...", "type": "...", "bounds": [ x1, y1, x2, y2 ], "label": "...", }, ... }, "topic": "...", "layout": "...", "relations": [ "id1 connects to id2", ... ], "caption": "..." }, ... ]

测试数据与 LLM 上下文示例/训练数据的结构相同。所有坐标已归一化，范围在 0 到 100 之间。

引用

如果您的研究中使用了该数据集，请引用以下论文： bibtex @inproceedings{Zala2024DiagrammerGPT, author = {Abhay Zala and Han Lin and Jaemin Cho and Mohit Bansal}, title = {DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning}, year = {2024}, booktitle = {COLM}, }

搜集汇总

数据集介绍

构建方式

AI2D-Caption数据集的构建基于AI2D数据集，并通过GPT-4v和LLaVA 1.5模型进行重新标注。具体而言，数据集的训练数据文件包括`ai2d_caption_gpt4v.json`和`ai2d_caption_llava_15.json`，分别由GPT-4v和LLaVA 1.5模型生成。此外，数据集还包含了用于LLM模型微调的上下文示例数据，如`planner_llm_training_examples`和`auditor_llm_training_examples`。测试数据则存储在`ai2d_caption_test.json`中，用于评估模型性能。

特点

AI2D-Caption数据集的主要特点在于其结合了GPT-4v和LLaVA 1.5模型的标注能力，生成了高质量的布局到文本的生成数据。数据集中的每个样本包含图像、实体信息、标注文本等内容，且所有坐标均被归一化至0到100之间。此外，数据集还提供了用于LLM模型微调的上下文示例，增强了模型在开放领域和开放平台上的图表生成能力。

使用方法

AI2D-Caption数据集可用于布局到文本生成模型的训练和评估。用户可以选择使用`ai2d_caption_gpt4v.json`或`ai2d_caption_llava_15.json`进行模型训练，推荐使用GPT-4v生成的数据以获得更高的质量。此外，数据集中的`planner_llm_training_examples`和`auditor_llm_training_examples`可用于LLM模型的微调。测试数据`ai2d_caption_test.json`则可用于评估模型的生成效果。

背景与挑战

背景概述

AI2D-Caption数据集是由Abhay Zala、Han Lin、Jaemin Cho和Mohit Bansal等研究人员于2024年创建的，旨在支持基于大型语言模型（LLM）的开放领域、开放平台图表生成任务。该数据集基于AI2D数据集，通过GPT-4v和LLaVA 1.5模型进行重新标注，以提高数据质量。其核心研究问题是如何利用LLM的布局指导能力生成更精确的图表，推动了文本到图表生成领域的技术进步。AI2D-Caption不仅为图表生成提供了高质量的训练数据，还为相关领域的研究提供了新的基准，展示了LLM在复杂视觉任务中的潜力。

当前挑战

AI2D-Caption数据集面临的挑战主要集中在图表生成的精确性和多样性上。首先，如何确保生成的图表在布局和语义上与输入文本高度一致，是一个复杂的技术难题。其次，数据集的构建过程中，依赖于GPT-4v和LLaVA 1.5等先进模型进行标注，这些模型的性能和稳定性直接影响数据质量，增加了数据处理的复杂性。此外，图表生成任务需要处理大量的视觉和文本信息，如何在有限的计算资源下高效地完成这一任务，也是当前研究的重点和难点。

常用场景

经典使用场景

AI2D-Caption数据集主要用于布局到文本的生成任务，特别是在图表生成领域。通过提供详细的图像、实体信息和对应的描述，该数据集支持训练和微调模型，以生成高质量的图表描述。其经典使用场景包括利用GPT-4v和LLaVA 1.5模型进行布局到文本的生成任务，从而提升图表生成的准确性和多样性。

实际应用

在实际应用中，AI2D-Caption数据集可用于自动化文档生成、教育资源制作和数据可视化等领域。例如，在教育领域，该数据集可以用于生成教学图表，帮助学生更好地理解复杂概念；在商业分析中，它可以用于自动生成数据报告中的图表描述，提高工作效率。

衍生相关工作

AI2D-Caption数据集的发布催生了一系列相关研究工作，包括基于GPT-4v和LLaVA 1.5的图表生成模型优化、布局到文本生成模型的改进等。这些工作不仅提升了图表生成的质量，还为图表理解和生成领域提供了新的研究方向和方法，推动了该领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集