thaottn/DataComp_medium_pool_BLIP2_captions

Name: thaottn/DataComp_medium_pool_BLIP2_captions
Creator: thaottn
Published: 2023-09-01 01:03:49
License: 暂无描述

Hugging Face2023-09-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/thaottn/DataComp_medium_pool_BLIP2_captions

下载链接

链接失效反馈

官方服务：

资源简介：

DataComp_medium_pool_BLIP2_captions数据集主要用于图像到文本和零样本分类任务，规模在100M到1B之间。数据集的主要语言是英语。数据集的结构包括每个实例的唯一图像标识符和对应的BLIP2生成的标题。数据集的创建目的是通过使用图像标题生成模型来增加训练样本的可用性，并确保标题与图像更相关。数据集来源于Common Crawl，并通过BLIP2模型生成文本数据。数据集的使用仅限于研究目的，因为可能存在未完全过滤的不适当内容。

The DataComp_medium_pool_BLIP2_captions dataset is primarily used for image-to-text generation and zero-shot classification tasks, with a scale ranging from 100 million to 1 billion. The primary language of this dataset is English. Each instance in the dataset includes a unique image identifier and the corresponding caption generated by the BLIP2 model. The dataset was created to expand the availability of training samples by leveraging image captioning models, while ensuring that the captions are more relevant to their paired images. Sourced from Common Crawl, the text data of the dataset is generated using the BLIP2 model. The use of this dataset is strictly limited to research purposes, as inappropriate content may remain due to incomplete filtering.

提供机构：

thaottn

原始信息汇总

数据集卡片 for DataComp_medium_pool_BLIP2_captions

数据集描述

数据集概述

支持的任务和排行榜

我们使用此数据集进行CLIP模型的预训练，发现它在平均水平上与在原始网络字幕上训练的模型相当或超过。请参阅DataComp排行榜（https://www.datacomp.ai/leaderboard.html）以获取我们工作中发现的顶级基线。

语言

主要是英语。

数据集结构

数据实例

每个实例将DataComp中的唯一图像标识符映射到使用不同softmax温度的相应BLIP2字幕（参见文件名以获取所使用的温度值）。

数据字段

uid: 图像的SHA256哈希值，由DataComp团队提供为元数据。
blip2-cap: BLIP2生成的相应字幕。

数据分割

数据未分割。该数据集旨在用于多模态模型的预训练。

数据集创建

策划理由

网络爬取的图像-文本数据可能包含大量噪声，即字幕可能不反映相应图像的内容。然而，过滤掉噪声网络数据可能会损害训练集的多样性。为了解决这两个问题，我们使用图像字幕模型来增加初始池中有用训练样本的数量，确保字幕与图像更相关。我们的工作系统地探索了在CLIP预训练的背景下使用这些合成字幕替换或补充原始文本数据的有效性。

源数据

初始数据收集和规范化

DataComp团队从Common Crawl收集了原始的128M图像-文本对。对初始数据池进行了最小限度的过滤（面部模糊、NSFW移除、训练-测试去重）。然后，我们用BLIP2生成的合成字幕替换了原始的网络爬取字幕。

源语言生产者是谁？

Common Crawl是图像的来源。BLIP2是文本数据的来源。

注释

注释过程

数据集是在完全自动化的过程中构建的：字幕由BLIP2字幕模型生成。

注释者是谁？

没有人类注释者参与。

个人和敏感信息

我们从DataComp基准继承的图像已经进行了面部检测和面部模糊处理。虽然DataComp团队尝试移除NSFW实例，但此类内容仍可能（在较小程度上）存在于该数据集中。由于该数据集的大规模性质，内容尚未经过手动验证以确保完全安全。因此，强烈建议该数据集仅用于研究目的。

使用数据的注意事项

数据集的社会影响

该出版物包含一些关于在Fairface上评估时，使用该数据集进行训练的公平性影响的初步分析。

偏见的讨论

更多详情请参阅出版物。

其他已知限制

更多详情请参阅出版物。

附加信息

引用信息

bibtex @article{nguyen2023improving, title={Improving Multimodal Datasets with Image Captioning}, author={Nguyen, Thao and Gadre, Samir Yitzhak and Ilharco, Gabriel and Oh, Sewoong and Schmidt, Ludwig}, journal={arXiv preprint arXiv:2307.10350}, year={2023} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集