five

thaottn/DataComp_large_pool_BLIP2_captions

收藏
Hugging Face2023-09-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thaottn/DataComp_large_pool_BLIP2_captions
下载链接
链接失效反馈
官方服务:
资源简介:
DataComp_large_pool_BLIP2_captions数据集主要用于图像到文本的转换和零样本分类任务,规模在1B到10B之间。数据集通过BLIP2模型生成图像描述,旨在提高CLIP模型预训练的效果。数据集主要包含英文内容,未进行数据分割,适用于多模态模型的预训练。数据集的创建目的是通过使用图像描述模型来增加训练样本的可用性,并确保描述与图像内容更相关。数据集来源于Common Crawl,经过最小化过滤处理,并使用BLIP2模型生成描述。数据集未涉及人工标注,可能存在少量NSFW内容,建议仅用于研究目的。
提供机构:
thaottn
原始信息汇总

数据集卡片 for DataComp_large_pool_BLIP2_captions

数据集描述

数据集概述

支持的任务和排行榜

我们使用此数据集进行CLIP模型的预训练,发现它在平均水平上与在原始网络字幕上训练的模型相当或优于。请参考DataComp排行榜(https://www.datacomp.ai/leaderboard.html)查看我们工作中发现的顶级基线。

语言

主要为英语。

数据集结构

数据实例

每个实例将DataComp中的唯一图像标识符映射到相应的BLIP2字幕,生成温度为0.75。

数据字段

  • uid: 图像的SHA256哈希值,由DataComp团队提供为元数据。
  • blip2-cap: 由BLIP2生成的相应字幕。

数据分割

数据未分割。该数据集旨在用于多模态模型的预训练。

数据集创建

策划理由

网络爬取的图像-文本数据可能包含大量噪声,即字幕可能无法反映相应图像的内容。然而,过滤掉噪声网络数据可能会损害训练集的多样性。为了解决这两个问题,我们使用图像字幕模型来增加初始池中有用训练样本的数量,确保字幕与图像更相关。我们的工作系统地探索了在CLIP预训练的背景下使用这些合成字幕替换或补充原始文本数据的有效性。

源数据

初始数据收集和规范化

原始的1.28M图像-文本对由DataComp团队从Common Crawl收集。对初始数据池进行了最小限度的过滤(面部模糊、NSFW移除、训练-测试重复数据删除)。然后,我们用BLIP2生成的合成字幕替换了原始的网络爬取字幕。

源语言生产者

Common Crawl是图像的来源。BLIP2是文本数据的来源。

注释

注释过程

数据集是通过完全自动化的过程构建的:字幕由BLIP2字幕模型生成。

注释者

没有人类注释者参与。

个人和敏感信息

我们从DataComp基准继承的图像已经进行了面部检测和面部模糊处理。虽然DataComp团队试图移除NSFW实例,但此类内容仍可能(在较小程度上)存在于该数据集中。由于该数据集的规模庞大,内容尚未经过手动验证以确保完全安全。因此,强烈建议仅将此数据集用于研究目的。

使用数据的考虑因素

数据集的社会影响

该出版物包含了一些关于在Fairface上评估时,使用此数据集进行训练的公平性影响的初步分析。

偏见讨论

请参考出版物了解更多详情。

其他已知限制

请参考出版物了解更多详情。

附加信息

引用信息

bibtex @article{nguyen2023improving, title={Improving Multimodal Datasets with Image Captioning}, author={Nguyen, Thao and Gadre, Samir Yitzhak and Ilharco, Gabriel and Oh, Sewoong and Schmidt, Ludwig}, journal={arXiv preprint arXiv:2307.10350}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作