thaottn/DataComp_large_pool_BLIP2_captions
收藏数据集卡片 for DataComp_large_pool_BLIP2_captions
数据集描述
数据集概述
支持的任务和排行榜
我们使用此数据集进行CLIP模型的预训练,发现它在平均水平上与在原始网络字幕上训练的模型相当或优于。请参考DataComp排行榜(https://www.datacomp.ai/leaderboard.html)查看我们工作中发现的顶级基线。
语言
主要为英语。
数据集结构
数据实例
每个实例将DataComp中的唯一图像标识符映射到相应的BLIP2字幕,生成温度为0.75。
数据字段
- uid: 图像的SHA256哈希值,由DataComp团队提供为元数据。
- blip2-cap: 由BLIP2生成的相应字幕。
数据分割
数据未分割。该数据集旨在用于多模态模型的预训练。
数据集创建
策划理由
网络爬取的图像-文本数据可能包含大量噪声,即字幕可能无法反映相应图像的内容。然而,过滤掉噪声网络数据可能会损害训练集的多样性。为了解决这两个问题,我们使用图像字幕模型来增加初始池中有用训练样本的数量,确保字幕与图像更相关。我们的工作系统地探索了在CLIP预训练的背景下使用这些合成字幕替换或补充原始文本数据的有效性。
源数据
初始数据收集和规范化
原始的1.28M图像-文本对由DataComp团队从Common Crawl收集。对初始数据池进行了最小限度的过滤(面部模糊、NSFW移除、训练-测试重复数据删除)。然后,我们用BLIP2生成的合成字幕替换了原始的网络爬取字幕。
源语言生产者
Common Crawl是图像的来源。BLIP2是文本数据的来源。
注释
注释过程
数据集是通过完全自动化的过程构建的:字幕由BLIP2字幕模型生成。
注释者
没有人类注释者参与。
个人和敏感信息
我们从DataComp基准继承的图像已经进行了面部检测和面部模糊处理。虽然DataComp团队试图移除NSFW实例,但此类内容仍可能(在较小程度上)存在于该数据集中。由于该数据集的规模庞大,内容尚未经过手动验证以确保完全安全。因此,强烈建议仅将此数据集用于研究目的。
使用数据的考虑因素
数据集的社会影响
该出版物包含了一些关于在Fairface上评估时,使用此数据集进行训练的公平性影响的初步分析。
偏见讨论
请参考出版物了解更多详情。
其他已知限制
请参考出版物了解更多详情。
附加信息
引用信息
bibtex @article{nguyen2023improving, title={Improving Multimodal Datasets with Image Captioning}, author={Nguyen, Thao and Gadre, Samir Yitzhak and Ilharco, Gabriel and Oh, Sewoong and Schmidt, Ludwig}, journal={arXiv preprint arXiv:2307.10350}, year={2023} }



