lodestones/Recap-DataComp-1B
收藏Recap-DataComp-1B 数据集概述
数据集描述
Recap-DataComp-1B 是一个大规模的图像-文本数据集,通过使用先进的 LLaVA-1.5-LLaMA3-8B 模型重新标注,以增强文本描述的准确性和细节。该数据集旨在通过提供更丰富的语义和更好的对齐文本,提升视觉-语言模型的性能。
数据集结构
特征字段
- url: 图像URL,数据类型为字符串。
- re_caption: 重新标注的文本,数据类型为字符串。
- org_caption: 原始标注的文本,数据类型为字符串。
- sha256: 图像的SHA256哈希值,数据类型为字符串。
- key: 键值,数据类型为字符串。
- re_clip_score: 重新标注文本的CLIP分数,数据类型为浮点数。
- org_clip_score: 原始标注文本的CLIP分数,数据类型为浮点数。
- re_length: 重新标注文本的长度,数据类型为整数。
- org_length: 原始标注文本的长度,数据类型为整数。
- re_gpt4v_score: 重新标注文本的GPT4V分数,数据类型为整数。
- org_gpt4v_score: 原始标注文本的GPT4V分数,数据类型为整数。
数据分割
- preview: 预览数据,包含1000个样本,总大小为583351字节。
- train: 训练数据,包含1237983779个样本,总大小为709865275729字节。
数据文件
- preview: 预览数据文件路径为
data/preview_data/preview-*。 - train: 训练数据文件路径为
data/train_data/train-*。
数据集创建
数据来源
数据集来源于 DataComp-1B 数据集,该数据集从128亿个图像-文本对中筛选而来。
数据收集与处理
数据通过网络爬虫收集,并经过严格的预处理,包括安全检查、去重和基于CLIP分数及图像标准的过滤。重新标注使用了一个经过微调的 LLaMA-3-8B 驱动的 LLaVA-1.5 模型。
标注过程
重新标注的文本由 LLaVA-1.5-LLaMA3-8B 模型生成,采用自回归生成和贪心解码方法,旨在生成详细且语义丰富的标注。
使用场景
直接使用
数据集适用于训练高级视觉-语言模型,如CLIP和文本到图像的扩散变换器,可用于零样本分类、跨模态检索和文本到图像生成等任务。
超出范围的使用
数据集不适用于需要高度准确和敏感个人数据的应用,因为重新标注的数据可能仍包含原始网络爬取数据的噪声和不准确性。
偏差、风险和限制
尽管重新标注的数据集旨在提高数据质量,但仍可能包含原始网络爬取数据中的偏差和不准确性。用户应意识到这些限制,以及标注中可能存在的对齐问题或噪声。
引用
@article{li2024recaption, title={What If We Recaption Billions of Web Images with LLaMA-3?}, author={Xianhang Li and Haoqin Tu and Mude Hui and Zeyu Wang and Bingchen Zhao and Junfei Xiao and Sucheng Ren and Jieru Mei and Qing Liu and Huangjie Zheng and Yuyin Zhou and Cihang Xie}, journal={arXiv preprint arXiv:2406.08478}, year={2024} }




