thaottn/DataComp_medium_pool_BLIP2_captions
收藏数据集卡片 for DataComp_medium_pool_BLIP2_captions
数据集描述
数据集概述
支持的任务和排行榜
我们使用此数据集进行CLIP模型的预训练,发现它在平均水平上与在原始网络字幕上训练的模型相当或超过。请参阅DataComp排行榜(https://www.datacomp.ai/leaderboard.html)以获取我们工作中发现的顶级基线。
语言
主要是英语。
数据集结构
数据实例
每个实例将DataComp中的唯一图像标识符映射到使用不同softmax温度的相应BLIP2字幕(参见文件名以获取所使用的温度值)。
数据字段
- uid: 图像的SHA256哈希值,由DataComp团队提供为元数据。
- blip2-cap: BLIP2生成的相应字幕。
数据分割
数据未分割。该数据集旨在用于多模态模型的预训练。
数据集创建
策划理由
网络爬取的图像-文本数据可能包含大量噪声,即字幕可能不反映相应图像的内容。然而,过滤掉噪声网络数据可能会损害训练集的多样性。为了解决这两个问题,我们使用图像字幕模型来增加初始池中有用训练样本的数量,确保字幕与图像更相关。我们的工作系统地探索了在CLIP预训练的背景下使用这些合成字幕替换或补充原始文本数据的有效性。
源数据
初始数据收集和规范化
DataComp团队从Common Crawl收集了原始的128M图像-文本对。对初始数据池进行了最小限度的过滤(面部模糊、NSFW移除、训练-测试去重)。然后,我们用BLIP2生成的合成字幕替换了原始的网络爬取字幕。
源语言生产者是谁?
Common Crawl是图像的来源。BLIP2是文本数据的来源。
注释
注释过程
数据集是在完全自动化的过程中构建的:字幕由BLIP2字幕模型生成。
注释者是谁?
没有人类注释者参与。
个人和敏感信息
我们从DataComp基准继承的图像已经进行了面部检测和面部模糊处理。虽然DataComp团队尝试移除NSFW实例,但此类内容仍可能(在较小程度上)存在于该数据集中。由于该数据集的大规模性质,内容尚未经过手动验证以确保完全安全。因此,强烈建议该数据集仅用于研究目的。
使用数据的注意事项
数据集的社会影响
该出版物包含一些关于在Fairface上评估时,使用该数据集进行训练的公平性影响的初步分析。
偏见的讨论
更多详情请参阅出版物。
其他已知限制
更多详情请参阅出版物。
附加信息
引用信息
bibtex @article{nguyen2023improving, title={Improving Multimodal Datasets with Image Captioning}, author={Nguyen, Thao and Gadre, Samir Yitzhak and Ilharco, Gabriel and Oh, Sewoong and Schmidt, Ludwig}, journal={arXiv preprint arXiv:2307.10350}, year={2023} }



