tomg-group-umd/pixelprose
收藏Hugging Face2025-12-13 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/tomg-group-umd/pixelprose
下载链接
链接失效反馈官方服务:
资源简介:
PixelProse是一个包含超过1600万张图像及其对应密集描述的综合数据集,这些描述是通过先进的视觉语言模型生成的。数据集分为三个主要部分:CommonPool、CC12M和RedCaps,分别包含650万、910万和130万对图像和描述。数据集提供了多种下载方式,包括Git LFS、Huggingface API和直接链接。数据集中的变量列包括唯一标识符、图像URL、原始描述、密集描述等。
PixelProse是一个包含超过1600万张图像及其对应密集描述的综合数据集,这些描述是通过先进的视觉语言模型生成的。数据集分为三个主要部分:CommonPool、CC12M和RedCaps,分别包含650万、910万和130万对图像和描述。数据集提供了多种下载方式,包括Git LFS、Huggingface API和直接链接。数据集中的变量列包括唯一标识符、图像URL、原始描述、密集描述等。
提供机构:
tomg-group-umd
原始信息汇总
PixelProse 数据集概述
数据集基本信息
- 许可证:cc-by-4.0
- 任务类别:
- 图像到文本
- 文本到图像
- 视觉问答
- 语言:英语
- 标签:croissant
- 美观名称:PixelProse
- 大小类别:10M<n<100M
数据集配置
- 配置名称:default
- 数据文件:
train:data/vlm_captions_*.parquetcc12m:data/vlm_captions_cc12m_*.parquetcommonpool:data/vlm_captions_common-pool_*.parquetredcaps:data/vlm_captions_redcaps_*.parquet
数据集详细信息
- 总图像-文本对数:16,896,214(16.9M)
CommonPool:6,538,898(6.5M)对CC12M:9,066,455(9.1M)对RedCaps:1,290,861(1.3M)对
数据下载
- Parquet 文件下载方式:
- 通过 Git LFS
- 通过 Huggingface API
- 通过直接链接
图像下载
- 图像下载工具:img2dataset
变量列
uid:图像唯一标识符url:图像URLkey:图像关联键status:vlm_model返回的状态original_caption:源继承的描述vlm_model:用于描述图像的模型vlm_caption:PixelProse的密集描述toxicity:一般有毒行为或语言的分数severe_toxicity:极其有害和辱骂性语言的分数obscene:使用淫秽或不适当语言的分数identity_attack:基于身份针对个人或群体的语言的分数insult:旨在侮辱或贬低的语言的分数threat:传达威胁伤害的语言的分数sexual_explicit:含有性显式内容的语言的分数watermark_class_id:水印分类(0= 带水印的图像,1= 无水印的图像,2= 无水印但有文本的图像)watermark_class_score:每个水印类的预测分数,范围从[0, 1]aesthetic_score:美学分数,范围从[0, 10]error_message:vlm_model返回的错误消息width / height:下载并用于运行vlm_model的图像尺寸original_width / original_height:图像的原始尺寸exif:图像文件的EXIF信息sha256:图像文件的SHA256哈希image_id,author,subreddit,score:从RedCaps继承的属性,CC12M和CommonPool中不可用



