GBC10M

Hugging Face2024-06-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/graph-based-captions/GBC10M

下载链接

链接失效反馈

官方服务：

资源简介：

GBC10M数据集是一个用于视觉语言预训练和图像标注的大型数据集，包含超过1000万张图像。该数据集采用了一种新型的图像注释格式——Graph-based captions (GBC)，这种格式通过连接区域标题来创建统一的描述，同时提供结构化信息，类似于场景图。每张图像的注释以JSON行格式存储，包含图像URL和GBC格式的注释，其中每个图像的注释是一个GbcGraph对象，包含图像URL、原始标题和顶点字典，每个顶点包含边界框信息和合成标题。

创建时间：

2024-06-07

原始信息汇总

数据集概述

基本信息

许可证: CC BY-NC 4.0
任务类别:
- 图像到文本
- 文本到图像
语言: 英语
数据集大小: 10M<n<100M
标签:
- 视觉语言预训练
- 图像描述
- 牛角面包

数据集配置

配置名称: default
数据文件:
- 训练集: data/jsonl/train/*.jsonl
- 测试集: data/jsonl/test/*.jsonl

数据集描述

数据集名称: GBC10M
数据来源: 从CC12M原始图像中构建
数据格式: JSON lines
数据结构:
- GbcGraph包含图像URL、原始描述和顶点列表
- GbcVertex包含顶点ID、边界框、标签、描述和边列表
- GbcEdge包含源顶点ID、文本和目标顶点ID
- Description包含文本和标签
- Bbox包含边界框的相对位置和置信度

数据集统计

图像数量: 10,138,757
每张图像的顶点数: 12.24
每张图像的边数: 21.81
每张图像的描述数: 17.67
每张图像的单词数: 533.98
平均图直径: 4.41

使用方法

加载数据集: 使用HuggingFace datasets库

python from datasets import load_dataset

gbc_graphs = [] ds = load_dataset("graph-based-captions/GBC10M", split="test")

for record in ds: gbc_graphs.append(GbcGraph.model_validate(record))

许可证

合成注释: CC BY-NC 4.0
原始图像URL-文本样本: Google特定许可证
单个图像: 各自版权

引用

@article{GBC2024, title={Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions}, author={Yu-Guan Hsieh and Cheng-Yu Hsieh and Shih-Ying Yeh and Louis Béthune and Hadi Pouransari and Pavan Kumar Anasosalu Vasu and Chun-Liang Li and Ranjay Krishna and Oncel Tuzel and Marco Cuturi}, journal={arXiv preprint arXiv:2407.06723}, year={2024} }

搜集汇总

数据集介绍

构建方式

GBC10M数据集的构建基于CC12M原始图像，采用了一种自动化的注释生成流程。该流程结合了预训练的多模态大语言模型（MLLM）和对象检测模型，生成了包含图像URL和注释的JSON格式数据。每个样本被定义为一个`GbcGraph`，其中包含图像的边界框信息以及每个顶点的合成描述。通过这种方式，数据集不仅提供了丰富的图像描述，还保持了结构化的信息，类似于场景图。

特点

GBC10M数据集的特点在于其独特的图结构注释方式，将区域描述与场景图相结合，生成了统一的图像描述。每个图像样本平均包含12.24个顶点、21.81条边和17.67个描述，平均每个图像的描述词数达到533.98个。这种结构化的注释方式不仅提供了详细的图像内容描述，还通过图结构捕捉了图像中各个区域之间的关系，为视觉语言预训练和图像描述任务提供了丰富的上下文信息。

使用方法

GBC10M数据集可以通过HuggingFace的`datasets`库直接加载，用户可以使用`dask`或`mlcroissant`等工具进行数据处理。数据集以JSON行格式存储，每个样本包含图像URL和注释信息。用户可以通过加载数据集并解析`GbcGraph`对象，获取图像的详细描述和结构信息。此外，数据集还提供了测试集，包含10,151张图像，便于用户进行模型评估和实验验证。

背景与挑战

背景概述

GBC10M数据集于2024年由Yu-Guan Hsieh等研究人员提出，旨在推动视觉语言预训练和图像描述领域的发展。该数据集基于CC12M数据集构建，采用了图基描述（Graph-Based Captioning, GBC）这一新颖的图像标注范式，结合了长描述、区域描述和场景图的优势。GBC通过将区域描述相互连接，生成类似于长描述的统一描述，同时提供类似场景图的结构化信息。这一创新方法不仅提升了图像描述的丰富性和准确性，还为视觉语言模型的训练提供了高质量的数据支持。GBC10M的发布标志着图像描述领域从传统的单一描述向结构化、多层次描述的转变，对视觉语言模型的研究和应用具有深远影响。

当前挑战

GBC10M数据集在构建和应用过程中面临多重挑战。首先，图像描述的生成需要兼顾区域描述的细节与整体场景的连贯性，这对标注模型的精度和泛化能力提出了极高要求。其次，数据集的大规模特性使得数据处理和存储成为技术瓶颈，尤其是在图结构的构建和优化过程中，计算复杂度显著增加。此外，尽管GBC10M通过自动化流程生成标注，但如何确保标注的多样性和准确性仍需进一步研究。最后，由于数据集依赖于外部图像资源，版权和许可问题也成为潜在的法律挑战。这些技术、计算和法律层面的挑战共同构成了GBC10M数据集在实际应用中的主要障碍。

常用场景

经典使用场景

GBC10M数据集在视觉语言预训练领域具有广泛的应用，尤其是在图像描述生成任务中。通过结合长描述、区域描述和场景图的结构信息，GBC10M能够生成更加丰富和连贯的图像描述。这种基于图的描述方法不仅提升了描述的准确性，还为多模态学习提供了新的视角。

衍生相关工作

GBC10M数据集的推出催生了一系列相关研究，特别是在基于图的视觉描述生成和多模态预训练模型领域。许多研究团队利用该数据集开发了新的算法和模型，进一步提升了图像描述的生成质量。此外，GBC10M还为其他数据集的设计提供了参考，推动了整个视觉语言预训练领域的技术进步。

数据集最近研究