five

tomg-group-umd/pixelprose

收藏
Hugging Face2025-12-13 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/tomg-group-umd/pixelprose
下载链接
链接失效反馈
官方服务:
资源简介:
PixelProse是一个包含超过1600万张图像及其对应密集描述的综合数据集,这些描述是通过先进的视觉语言模型生成的。数据集分为三个主要部分:CommonPool、CC12M和RedCaps,分别包含650万、910万和130万对图像和描述。数据集提供了多种下载方式,包括Git LFS、Huggingface API和直接链接。数据集中的变量列包括唯一标识符、图像URL、原始描述、密集描述等。

PixelProse是一个包含超过1600万张图像及其对应密集描述的综合数据集,这些描述是通过先进的视觉语言模型生成的。数据集分为三个主要部分:CommonPool、CC12M和RedCaps,分别包含650万、910万和130万对图像和描述。数据集提供了多种下载方式,包括Git LFS、Huggingface API和直接链接。数据集中的变量列包括唯一标识符、图像URL、原始描述、密集描述等。
提供机构:
tomg-group-umd
原始信息汇总

PixelProse 数据集概述

数据集基本信息

  • 许可证:cc-by-4.0
  • 任务类别
    • 图像到文本
    • 文本到图像
    • 视觉问答
  • 语言:英语
  • 标签:croissant
  • 美观名称:PixelProse
  • 大小类别:10M<n<100M

数据集配置

  • 配置名称:default
  • 数据文件
    • train:data/vlm_captions_*.parquet
    • cc12m:data/vlm_captions_cc12m_*.parquet
    • commonpool:data/vlm_captions_common-pool_*.parquet
    • redcaps:data/vlm_captions_redcaps_*.parquet

数据集详细信息

  • 总图像-文本对数:16,896,214(16.9M)
    • CommonPool:6,538,898(6.5M)对
    • CC12M:9,066,455(9.1M)对
    • RedCaps:1,290,861(1.3M)对

数据下载

  • Parquet 文件下载方式
    • 通过 Git LFS
    • 通过 Huggingface API
    • 通过直接链接

图像下载

变量列

  • uid:图像唯一标识符
  • url:图像URL
  • key:图像关联键
  • statusvlm_model返回的状态
  • original_caption:源继承的描述
  • vlm_model:用于描述图像的模型
  • vlm_caption:PixelProse的密集描述
  • toxicity:一般有毒行为或语言的分数
  • severe_toxicity:极其有害和辱骂性语言的分数
  • obscene:使用淫秽或不适当语言的分数
  • identity_attack:基于身份针对个人或群体的语言的分数
  • insult:旨在侮辱或贬低的语言的分数
  • threat:传达威胁伤害的语言的分数
  • sexual_explicit:含有性显式内容的语言的分数
  • watermark_class_id:水印分类(0 = 带水印的图像,1 = 无水印的图像,2 = 无水印但有文本的图像)
  • watermark_class_score:每个水印类的预测分数,范围从[0, 1]
  • aesthetic_score:美学分数,范围从[0, 10]
  • error_messagevlm_model返回的错误消息
  • width / height:下载并用于运行vlm_model的图像尺寸
  • original_width / original_height:图像的原始尺寸
  • exif:图像文件的EXIF信息
  • sha256:图像文件的SHA256哈希
  • image_id, author, subreddit, score:从RedCaps继承的属性,CC12M和CommonPool中不可用
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作