UCSC-VLAA/Recap-DataComp-1B
收藏数据集卡片 Recap-DataComp-1B
数据集详情
数据集描述
Recap-DataComp-1B 是一个大规模的图像-文本数据集,使用先进的 LLaVA-1.5-LLaMA3-8B 模型进行了重新标注,以增强文本描述的对齐和细节。
数据集来源
- 来源数据集: DataComp-1B 数据集,从 128 亿图像-文本对中筛选而来。
数据集结构
特征
- url: 字符串类型
- re_caption: 字符串类型
- org_caption: 字符串类型
- sha256: 字符串类型
- key: 字符串类型
- re_clip_score: float64 类型
- org_clip_score: float64 类型
- re_length: int64 类型
- org_length: int64 类型
- re_gpt4v_score: int64 类型
- org_gpt4v_score: int64 类型
数据分割
- preview: 1000 个样本,583351 字节
- train: 1237983779 个样本,709865275729 字节
数据集创建
创建理由
该数据集旨在解决网络爬取的图像-文本对中的噪声和对齐问题,通过提供更丰富和语义上对齐的标注来提高视觉-语言模型的性能。
数据收集和处理
数据通过网络爬取收集,并经过严格的前处理,包括安全检查、去重和基于 CLIP 分数和图像标准的过滤。重新标注使用了一个经过微调的 LLaMA-3-8B 驱动的 LLaVA-1.5 模型。
标注
标注过程
标注以重新标注的文本形式生成,使用了一个先进的语言模型 LLaVA-1.5-LLaMA3-8B。重新标注过程涉及自回归生成和贪婪解码,旨在生成详细和语义丰富的标注。
标注者
标注由 LLaVA-1.5-LLaMA3-8B 模型生成。
个人和敏感信息
数据集已进行安全检查以过滤有害内容,但用户仍应谨慎,因为某些个人或敏感信息可能由于网络爬取数据的性质而存在。
偏差、风险和限制
尽管重新标注的数据集旨在提高数据质量,但它可能仍包含原始网络爬取数据中的偏差和不准确性。用户应意识到这些限制以及标注中可能存在的对齐或噪声问题。
引用
bibtex @article{li2024recaption, title={What If We Recaption Billions of Web Images with LLaMA-3?}, author={Xianhang Li and Haoqin Tu and Mude Hui and Zeyu Wang and Bingchen Zhao and Junfei Xiao and Sucheng Ren and Jieru Mei and Qing Liu and Huangjie Zheng and Yuyin Zhou and Cihang Xie}, journal={arXiv preprint arXiv:2406.08478}, year={2024} }




