five

UCSC-VLAA/Recap-DataComp-1B

收藏
Hugging Face2025-01-09 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/UCSC-VLAA/Recap-DataComp-1B
下载链接
链接失效反馈
官方服务:
资源简介:
Recap-DataComp-1B是一个大规模的图像-文本数据集,通过使用先进的LLaVA-1.5-LLaMA3-8B模型重新标注,以提高文本描述的准确性和细节。该数据集旨在训练先进的视觉-语言模型,如CLIP和文本到图像的扩散变换器。数据集包含图像URL、原始标题、重新标注的文本和其他元数据,如sha256哈希值。数据集的创建旨在解决网络爬取的图像-文本对中的噪声和对齐问题,以提高视觉-语言模型的性能。

Recap-DataComp-1B is a large-scale image-text dataset that has been recaptioned using an advanced LLaVA-1.5-LLaMA3-8B model to enhance the alignment and detail of textual descriptions. The dataset is intended for training advanced vision-language models, including discriminative models like CLIP and generative models such as text-to-image Diffusion Transformers. It contains fields for image URLs, original captions, recaptioned text, and other metadata such as sha256 hashes. The dataset was created to address the noise and misalignment issues present in web-crawled image-text pairs, aiming to improve the performance of vision-language models by providing more semantically rich and well-aligned captions.
提供机构:
UCSC-VLAA
原始信息汇总

数据集卡片 Recap-DataComp-1B

数据集详情

数据集描述

Recap-DataComp-1B 是一个大规模的图像-文本数据集,使用先进的 LLaVA-1.5-LLaMA3-8B 模型进行了重新标注,以增强文本描述的对齐和细节。

数据集来源

  • 来源数据集: DataComp-1B 数据集,从 128 亿图像-文本对中筛选而来。

数据集结构

特征

  • url: 字符串类型
  • re_caption: 字符串类型
  • org_caption: 字符串类型
  • sha256: 字符串类型
  • key: 字符串类型
  • re_clip_score: float64 类型
  • org_clip_score: float64 类型
  • re_length: int64 类型
  • org_length: int64 类型
  • re_gpt4v_score: int64 类型
  • org_gpt4v_score: int64 类型

数据分割

  • preview: 1000 个样本,583351 字节
  • train: 1237983779 个样本,709865275729 字节

数据集创建

创建理由

该数据集旨在解决网络爬取的图像-文本对中的噪声和对齐问题,通过提供更丰富和语义上对齐的标注来提高视觉-语言模型的性能。

数据收集和处理

数据通过网络爬取收集,并经过严格的前处理,包括安全检查、去重和基于 CLIP 分数和图像标准的过滤。重新标注使用了一个经过微调的 LLaMA-3-8B 驱动的 LLaVA-1.5 模型。

标注

标注过程

标注以重新标注的文本形式生成,使用了一个先进的语言模型 LLaVA-1.5-LLaMA3-8B。重新标注过程涉及自回归生成和贪婪解码,旨在生成详细和语义丰富的标注。

标注者

标注由 LLaVA-1.5-LLaMA3-8B 模型生成。

个人和敏感信息

数据集已进行安全检查以过滤有害内容,但用户仍应谨慎,因为某些个人或敏感信息可能由于网络爬取数据的性质而存在。

偏差、风险和限制

尽管重新标注的数据集旨在提高数据质量,但它可能仍包含原始网络爬取数据中的偏差和不准确性。用户应意识到这些限制以及标注中可能存在的对齐或噪声问题。

引用

bibtex @article{li2024recaption, title={What If We Recaption Billions of Web Images with LLaMA-3?}, author={Xianhang Li and Haoqin Tu and Mude Hui and Zeyu Wang and Bingchen Zhao and Junfei Xiao and Sucheng Ren and Jieru Mei and Qing Liu and Huangjie Zheng and Yuyin Zhou and Cihang Xie}, journal={arXiv preprint arXiv:2406.08478}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型蓬勃发展的背景下,Recap-DataComp-1B数据集的构建旨在解决网络爬取图像-文本对中普遍存在的噪声与语义失配问题。其核心方法是从DataComp-1B数据集中精选出13亿张图像,并利用经过微调的LLaVA-1.5-LLaMA3-8B先进模型对这些图像进行重新描述。该流程采用自回归生成与贪婪解码策略,旨在为每张图像生成细节更丰富、语义更精准的文本标注,从而显著提升原始描述的质量与对齐度。
特点
该数据集作为大规模图像-文本对资源,其显著特征在于提供了原始描述与经过增强的重新描述文本的双重标注。每条数据记录不仅包含图像链接和两种文本描述,还附带了基于CLIP模型的图文匹配分数、文本长度以及GPT-4V评估分数等多维度元数据。这些结构化特征为研究者深入分析描述质量、评估模型性能以及进行精细化的数据筛选提供了强有力的支持,尤其适用于训练需要高质量对齐数据的下一代视觉语言模型。
使用方法
该数据集主要服务于高级视觉语言模型的训练与评估。用户可通过HuggingFace平台便捷加载数据集,其提供了‘default’和‘condition_diverse_topk’两种配置,并包含预览集与大规模训练集。该数据可直接用于训练如CLIP等判别式模型以提升其零样本分类与跨模态检索能力,亦可用于训练文生图扩散变换器等生成式模型,以增强生成图像与复杂文本指令的语义对齐。使用前建议用户仔细阅读相关论文,理解数据集的构建细节与潜在局限。
背景与挑战
背景概述
在视觉语言模型蓬勃发展的时代,高质量、大规模且对齐良好的图文数据成为推动多模态人工智能进步的关键基石。Recap-DataComp-1B数据集应运而生,由加州大学圣克鲁兹分校视觉、语言与行动实验室(UCSC-VLAA)的研究团队于2024年主导创建,其核心研究问题在于解决从网络爬取的原始图文对中普遍存在的噪声、语义模糊与对齐不佳等固有缺陷。该数据集通过对DataComp-1B中的13亿图像,利用先进的LLaVA-1.5-LLaMA3-8B模型进行精细化重标注,旨在生成语义更丰富、描述更精准的文本,从而显著提升如CLIP等判别式模型在零样本分类与跨模态检索任务中的性能,并增强如扩散变换器之类生成式模型对复杂文本指令的遵循能力,对推动开放域视觉语言理解与生成研究具有深远影响力。
当前挑战
该数据集致力于应对视觉语言预训练领域的一个核心挑战:如何从海量但嘈杂的网络数据中提炼出高质量、强对齐的图文配对,以突破模型在复杂语义理解与细粒度生成任务上的性能瓶颈。在构建过程中,研究团队面临多重具体挑战:首要挑战在于设计高效且可靠的自动化重标注流程,需确保基于LLaVA-1.5-LLaMA3-8B的生成模型能稳定产出细节丰富、忠实于图像内容的描述,同时避免引入模型自身的幻觉或偏见;其次,对原始12.8亿候选图文对进行大规模清洗、去重与安全过滤,在保证数据多样性的前提下剔除有害或低质量内容,构成了巨大的工程与计算挑战;最后,评估重标注文本的质量与效用,并验证其在不同类型下游模型上的泛化提升效果,也需要设计严谨的评估体系与实验方案。
常用场景
经典使用场景
在视觉-语言模型研究领域,Recap-DataComp-1B数据集凭借其由先进LLaVA-1.5-LLaMA3-8B模型重新标注的十亿级图像-文本对,为训练高性能跨模态模型提供了核心数据支撑。该数据集最经典的应用场景在于作为大规模预训练语料库,直接用于训练如CLIP等判别式模型以及文本到图像扩散变换器等生成式模型,通过提供语义更丰富、对齐更精准的图文描述,显著提升模型在零样本分类、跨模态检索等任务上的基准性能。
解决学术问题
该数据集主要致力于解决网络爬取图像-文本数据中普遍存在的噪声与语义失配问题。通过引入大语言模型驱动的自动化重标注流程,Recap-DataComp-1B有效缓解了原始数据描述简略、信息量不足的缺陷,为视觉-语言对齐研究提供了高质量、大规模的训练资源。其学术意义在于推动了数据质量对模型性能影响机制的深入探索,并为构建更鲁棒、更精准的跨模态理解模型奠定了新的数据基础,对提升生成式模型遵循复杂文本指令的能力产生了直接影响。
衍生相关工作
该数据集的发布直接催生并支撑了一系列围绕数据质量提升与模型训练优化的经典研究工作。其核心论文《What If We Recaption Billions of Web Images with LLaMA-3?》系统阐述了重标注流程与效益评估,为后续数据清洗与增强方法提供了范式。同时,该数据集作为DataComp基准的增强版本,已被广泛用于评估和比较不同视觉-语言架构的性能,并激励了更多研究关注于利用大语言模型改进多模态数据质量,从而衍生出新的模型训练策略与数据筛选算法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作