five

GBC10M

收藏
Hugging Face2024-06-18 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/graph-based-captions/GBC10M
下载链接
链接失效反馈
官方服务:
资源简介:
GBC10M数据集是一个用于视觉语言预训练和图像标注的大型数据集,包含超过1000万张图像。该数据集采用了一种新型的图像注释格式——Graph-based captions (GBC),这种格式通过连接区域标题来创建统一的描述,同时提供结构化信息,类似于场景图。每张图像的注释以JSON行格式存储,包含图像URL和GBC格式的注释,其中每个图像的注释是一个GbcGraph对象,包含图像URL、原始标题和顶点字典,每个顶点包含边界框信息和合成标题。
创建时间:
2024-06-07
原始信息汇总

数据集概述

基本信息

  • 许可证: CC BY-NC 4.0
  • 任务类别:
    • 图像到文本
    • 文本到图像
  • 语言: 英语
  • 数据集大小: 10M<n<100M
  • 标签:
    • 视觉语言预训练
    • 图像描述
    • 牛角面包

数据集配置

  • 配置名称: default
  • 数据文件:
    • 训练集: data/jsonl/train/*.jsonl
    • 测试集: data/jsonl/test/*.jsonl

数据集描述

  • 数据集名称: GBC10M
  • 数据来源: 从CC12M原始图像中构建
  • 数据格式: JSON lines
  • 数据结构:
    • GbcGraph包含图像URL、原始描述和顶点列表
    • GbcVertex包含顶点ID、边界框、标签、描述和边列表
    • GbcEdge包含源顶点ID、文本和目标顶点ID
    • Description包含文本和标签
    • Bbox包含边界框的相对位置和置信度

数据集统计

  • 图像数量: 10,138,757
  • 每张图像的顶点数: 12.24
  • 每张图像的边数: 21.81
  • 每张图像的描述数: 17.67
  • 每张图像的单词数: 533.98
  • 平均图直径: 4.41

使用方法

  • 加载数据集: 使用HuggingFace datasets

python from datasets import load_dataset

gbc_graphs = [] ds = load_dataset("graph-based-captions/GBC10M", split="test")

for record in ds: gbc_graphs.append(GbcGraph.model_validate(record))

许可证

  • 合成注释: CC BY-NC 4.0
  • 原始图像URL-文本样本: Google特定许可证
  • 单个图像: 各自版权

引用

@article{GBC2024, title={Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions}, author={Yu-Guan Hsieh and Cheng-Yu Hsieh and Shih-Ying Yeh and Louis Béthune and Hadi Pouransari and Pavan Kumar Anasosalu Vasu and Chun-Liang Li and Ranjay Krishna and Oncel Tuzel and Marco Cuturi}, journal={arXiv preprint arXiv:2407.06723}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
GBC10M数据集的构建基于CC12M原始图像,采用了一种自动化的注释生成流程。该流程结合了预训练的多模态大语言模型(MLLM)和对象检测模型,生成了包含图像URL和注释的JSON格式数据。每个样本被定义为一个`GbcGraph`,其中包含图像的边界框信息以及每个顶点的合成描述。通过这种方式,数据集不仅提供了丰富的图像描述,还保持了结构化的信息,类似于场景图。
特点
GBC10M数据集的特点在于其独特的图结构注释方式,将区域描述与场景图相结合,生成了统一的图像描述。每个图像样本平均包含12.24个顶点、21.81条边和17.67个描述,平均每个图像的描述词数达到533.98个。这种结构化的注释方式不仅提供了详细的图像内容描述,还通过图结构捕捉了图像中各个区域之间的关系,为视觉语言预训练和图像描述任务提供了丰富的上下文信息。
使用方法
GBC10M数据集可以通过HuggingFace的`datasets`库直接加载,用户可以使用`dask`或`mlcroissant`等工具进行数据处理。数据集以JSON行格式存储,每个样本包含图像URL和注释信息。用户可以通过加载数据集并解析`GbcGraph`对象,获取图像的详细描述和结构信息。此外,数据集还提供了测试集,包含10,151张图像,便于用户进行模型评估和实验验证。
背景与挑战
背景概述
GBC10M数据集于2024年由Yu-Guan Hsieh等研究人员提出,旨在推动视觉语言预训练和图像描述领域的发展。该数据集基于CC12M数据集构建,采用了图基描述(Graph-Based Captioning, GBC)这一新颖的图像标注范式,结合了长描述、区域描述和场景图的优势。GBC通过将区域描述相互连接,生成类似于长描述的统一描述,同时提供类似场景图的结构化信息。这一创新方法不仅提升了图像描述的丰富性和准确性,还为视觉语言模型的训练提供了高质量的数据支持。GBC10M的发布标志着图像描述领域从传统的单一描述向结构化、多层次描述的转变,对视觉语言模型的研究和应用具有深远影响。
当前挑战
GBC10M数据集在构建和应用过程中面临多重挑战。首先,图像描述的生成需要兼顾区域描述的细节与整体场景的连贯性,这对标注模型的精度和泛化能力提出了极高要求。其次,数据集的大规模特性使得数据处理和存储成为技术瓶颈,尤其是在图结构的构建和优化过程中,计算复杂度显著增加。此外,尽管GBC10M通过自动化流程生成标注,但如何确保标注的多样性和准确性仍需进一步研究。最后,由于数据集依赖于外部图像资源,版权和许可问题也成为潜在的法律挑战。这些技术、计算和法律层面的挑战共同构成了GBC10M数据集在实际应用中的主要障碍。
常用场景
经典使用场景
GBC10M数据集在视觉语言预训练领域具有广泛的应用,尤其是在图像描述生成任务中。通过结合长描述、区域描述和场景图的结构信息,GBC10M能够生成更加丰富和连贯的图像描述。这种基于图的描述方法不仅提升了描述的准确性,还为多模态学习提供了新的视角。
衍生相关工作
GBC10M数据集的推出催生了一系列相关研究,特别是在基于图的视觉描述生成和多模态预训练模型领域。许多研究团队利用该数据集开发了新的算法和模型,进一步提升了图像描述的生成质量。此外,GBC10M还为其他数据集的设计提供了参考,推动了整个视觉语言预训练领域的技术进步。
数据集最近研究
最新研究方向
近年来,GBC10M数据集在视觉语言预训练领域引起了广泛关注。该数据集通过结合长描述、区域描述和场景图,提出了一种新的图像标注范式——基于图的描述(GBC)。这一方法不仅能够生成统一的图像描述,还提供了类似场景图的结构化信息,极大地丰富了图像理解的多维度表达。当前的研究热点主要集中在如何利用GBC10M数据集提升多模态模型的性能,尤其是在图像生成和文本生成任务中的跨模态对齐能力。此外,随着大模型如LLaVA和YOLO-World的应用,研究者们正在探索如何进一步优化自动标注流程,以提高数据集的标注质量和多样性。GBC10M的推出为视觉语言模型的研究提供了新的数据基础,推动了图像描述生成技术的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作