tomg-group-umd/pixelprose

Name: tomg-group-umd/pixelprose
Creator: tomg-group-umd
Published: 2025-12-13 03:19:13
License: 暂无描述

Hugging Face2025-12-13 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/tomg-group-umd/pixelprose

下载链接

链接失效反馈

官方服务：

资源简介：

PixelProse是一个包含超过1600万张图像及其对应密集描述的综合数据集，这些描述是通过先进的视觉语言模型生成的。数据集分为三个主要部分：CommonPool、CC12M和RedCaps，分别包含650万、910万和130万对图像和描述。数据集提供了多种下载方式，包括Git LFS、Huggingface API和直接链接。数据集中的变量列包括唯一标识符、图像URL、原始描述、密集描述等。

提供机构：

tomg-group-umd

原始信息汇总

PixelProse 数据集概述

数据集基本信息

许可证：cc-by-4.0
任务类别：
- 图像到文本
- 文本到图像
- 视觉问答
语言：英语
标签：croissant
美观名称：PixelProse
大小类别：10M<n<100M

数据集配置

配置名称：default
数据文件：
- train：data/vlm_captions_*.parquet
- cc12m：data/vlm_captions_cc12m_*.parquet
- commonpool：data/vlm_captions_common-pool_*.parquet
- redcaps：data/vlm_captions_redcaps_*.parquet

数据集详细信息

总图像-文本对数：16,896,214（16.9M）
- CommonPool：6,538,898（6.5M）对
- CC12M：9,066,455（9.1M）对
- RedCaps：1,290,861（1.3M）对

数据下载

Parquet 文件下载方式：
- 通过 Git LFS
- 通过 Huggingface API
- 通过直接链接

图像下载

图像下载工具：img2dataset

变量列

uid：图像唯一标识符
url：图像URL
key：图像关联键
status：vlm_model返回的状态
original_caption：源继承的描述
vlm_model：用于描述图像的模型
vlm_caption：PixelProse的密集描述
toxicity：一般有毒行为或语言的分数
severe_toxicity：极其有害和辱骂性语言的分数
obscene：使用淫秽或不适当语言的分数
identity_attack：基于身份针对个人或群体的语言的分数
insult：旨在侮辱或贬低的语言的分数
threat：传达威胁伤害的语言的分数
sexual_explicit：含有性显式内容的语言的分数
watermark_class_id：水印分类（0 = 带水印的图像，1 = 无水印的图像，2 = 无水印但有文本的图像）
watermark_class_score：每个水印类的预测分数，范围从[0, 1]
aesthetic_score：美学分数，范围从[0, 10]
error_message：vlm_model返回的错误消息
width / height：下载并用于运行vlm_model的图像尺寸
original_width / original_height：图像的原始尺寸
exif：图像文件的EXIF信息
sha256：图像文件的SHA256哈希
image_id, author, subreddit, score：从RedCaps继承的属性，CC12M和CommonPool中不可用

5,000+

优质数据集

54 个

任务类型

进入经典数据集