five

AI2D-Caption

收藏
Hugging Face2024-09-03 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/abhayzala/AI2D-Caption
下载链接
链接失效反馈
官方服务:
资源简介:
AI2D-Caption数据集基于AI2D数据集,用于支持DiagrammerGPT框架中的布局到文本生成任务。数据集包含训练数据和测试数据,其中训练数据分为通过GPT-4v和LLaVA 1.5模型生成的两种类型。数据结构包括图像、实体信息、关系描述和图注等。数据集的目的是为了训练和评估文本到图表生成的模型。
创建时间:
2024-09-02
原始信息汇总

AI2D-Caption 数据集

概述

AI2D-Caption 数据集是基于 AI2D 数据集构建的,主要用于文本到图像的生成任务。该数据集包含了用于布局到文本生成的训练数据和测试数据,以及用于规划器和审计器 LLM 模型的上下文示例和训练数据。

文件结构

布局到文本生成训练数据

  • ai2d_caption_gpt4v.json:通过 GPT-4v 模型创建的训练数据。
  • ai2d_caption_llava_15.json:通过 LLaVA 1.5 模型创建的训练数据。

推荐使用 ai2d_caption_gpt4v.json 文件,因为其数据质量更高。

LLM 上下文示例/训练数据

  • planner_llm_training_examples:规划器 LLM 模型的上下文/训练示例。
  • auditor_llm_training_examples:审计器 LLM 模型的上下文/训练示例。

测试数据

  • ai2d_caption_test.json:用于图表生成的测试数据。

数据结构

布局到文本生成模型训练数据

json [ { "image": "...", "entities": { "...": { "id": "...", "type": "...", "bounds": [ x1, y1, x2, y2 ], "label": "...", }, ... }, "caption": "..." }, ... ]

LLM 上下文示例/训练数据

json [ { "image": "...", "entities": { "...": { "id": "...", "type": "...", "bounds": [ x1, y1, x2, y2 ], "label": "...", }, ... }, "topic": "...", "layout": "...", "relations": [ "id1 connects to id2", ... ], "caption": "..." }, ... ]

测试数据与 LLM 上下文示例/训练数据的结构相同。所有坐标已归一化,范围在 0 到 100 之间。

引用

如果您的研究中使用了该数据集,请引用以下论文: bibtex @inproceedings{Zala2024DiagrammerGPT, author = {Abhay Zala and Han Lin and Jaemin Cho and Mohit Bansal}, title = {DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning}, year = {2024}, booktitle = {COLM}, }

搜集汇总
数据集介绍
main_image_url
构建方式
AI2D-Caption数据集的构建基于AI2D数据集,并通过GPT-4v和LLaVA 1.5模型进行重新标注。具体而言,数据集的训练数据文件包括`ai2d_caption_gpt4v.json`和`ai2d_caption_llava_15.json`,分别由GPT-4v和LLaVA 1.5模型生成。此外,数据集还包含了用于LLM模型微调的上下文示例数据,如`planner_llm_training_examples`和`auditor_llm_training_examples`。测试数据则存储在`ai2d_caption_test.json`中,用于评估模型性能。
特点
AI2D-Caption数据集的主要特点在于其结合了GPT-4v和LLaVA 1.5模型的标注能力,生成了高质量的布局到文本的生成数据。数据集中的每个样本包含图像、实体信息、标注文本等内容,且所有坐标均被归一化至0到100之间。此外,数据集还提供了用于LLM模型微调的上下文示例,增强了模型在开放领域和开放平台上的图表生成能力。
使用方法
AI2D-Caption数据集可用于布局到文本生成模型的训练和评估。用户可以选择使用`ai2d_caption_gpt4v.json`或`ai2d_caption_llava_15.json`进行模型训练,推荐使用GPT-4v生成的数据以获得更高的质量。此外,数据集中的`planner_llm_training_examples`和`auditor_llm_training_examples`可用于LLM模型的微调。测试数据`ai2d_caption_test.json`则可用于评估模型的生成效果。
背景与挑战
背景概述
AI2D-Caption数据集是由Abhay Zala、Han Lin、Jaemin Cho和Mohit Bansal等研究人员于2024年创建的,旨在支持基于大型语言模型(LLM)的开放领域、开放平台图表生成任务。该数据集基于AI2D数据集,通过GPT-4v和LLaVA 1.5模型进行重新标注,以提高数据质量。其核心研究问题是如何利用LLM的布局指导能力生成更精确的图表,推动了文本到图表生成领域的技术进步。AI2D-Caption不仅为图表生成提供了高质量的训练数据,还为相关领域的研究提供了新的基准,展示了LLM在复杂视觉任务中的潜力。
当前挑战
AI2D-Caption数据集面临的挑战主要集中在图表生成的精确性和多样性上。首先,如何确保生成的图表在布局和语义上与输入文本高度一致,是一个复杂的技术难题。其次,数据集的构建过程中,依赖于GPT-4v和LLaVA 1.5等先进模型进行标注,这些模型的性能和稳定性直接影响数据质量,增加了数据处理的复杂性。此外,图表生成任务需要处理大量的视觉和文本信息,如何在有限的计算资源下高效地完成这一任务,也是当前研究的重点和难点。
常用场景
经典使用场景
AI2D-Caption数据集主要用于布局到文本的生成任务,特别是在图表生成领域。通过提供详细的图像、实体信息和对应的描述,该数据集支持训练和微调模型,以生成高质量的图表描述。其经典使用场景包括利用GPT-4v和LLaVA 1.5模型进行布局到文本的生成任务,从而提升图表生成的准确性和多样性。
实际应用
在实际应用中,AI2D-Caption数据集可用于自动化文档生成、教育资源制作和数据可视化等领域。例如,在教育领域,该数据集可以用于生成教学图表,帮助学生更好地理解复杂概念;在商业分析中,它可以用于自动生成数据报告中的图表描述,提高工作效率。
衍生相关工作
AI2D-Caption数据集的发布催生了一系列相关研究工作,包括基于GPT-4v和LLaVA 1.5的图表生成模型优化、布局到文本生成模型的改进等。这些工作不仅提升了图表生成的质量,还为图表理解和生成领域提供了新的研究方向和方法,推动了该领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作