AI2D-Caption
收藏AI2D-Caption 数据集
概述
AI2D-Caption 数据集是基于 AI2D 数据集构建的,主要用于文本到图像的生成任务。该数据集包含了用于布局到文本生成的训练数据和测试数据,以及用于规划器和审计器 LLM 模型的上下文示例和训练数据。
文件结构
布局到文本生成训练数据
ai2d_caption_gpt4v.json:通过 GPT-4v 模型创建的训练数据。ai2d_caption_llava_15.json:通过 LLaVA 1.5 模型创建的训练数据。
推荐使用 ai2d_caption_gpt4v.json 文件,因为其数据质量更高。
LLM 上下文示例/训练数据
planner_llm_training_examples:规划器 LLM 模型的上下文/训练示例。auditor_llm_training_examples:审计器 LLM 模型的上下文/训练示例。
测试数据
ai2d_caption_test.json:用于图表生成的测试数据。
数据结构
布局到文本生成模型训练数据
json [ { "image": "...", "entities": { "...": { "id": "...", "type": "...", "bounds": [ x1, y1, x2, y2 ], "label": "...", }, ... }, "caption": "..." }, ... ]
LLM 上下文示例/训练数据
json [ { "image": "...", "entities": { "...": { "id": "...", "type": "...", "bounds": [ x1, y1, x2, y2 ], "label": "...", }, ... }, "topic": "...", "layout": "...", "relations": [ "id1 connects to id2", ... ], "caption": "..." }, ... ]
测试数据与 LLM 上下文示例/训练数据的结构相同。所有坐标已归一化,范围在 0 到 100 之间。
引用
如果您的研究中使用了该数据集,请引用以下论文: bibtex @inproceedings{Zala2024DiagrammerGPT, author = {Abhay Zala and Han Lin and Jaemin Cho and Mohit Bansal}, title = {DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning}, year = {2024}, booktitle = {COLM}, }




