five

lodestone-horizon/pixelprose

收藏
Hugging Face2024-06-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/lodestone-horizon/pixelprose
下载链接
链接失效反馈
官方服务:
资源简介:
PixelProse是一个包含超过1600万条合成生成的图像描述的综合数据集,这些描述利用了先进的视觉语言模型(如Gemini 1.0 Pro Vision)来生成详细和准确的描述。数据集包括多个列,如唯一标识符、图像URL、原始描述、模型生成的密集描述、毒性评分等。数据集的结构详细,提供了丰富的信息用于图像到文本、文本到图像和视觉问答等任务。

PixelProse is a comprehensive dataset of over 16 million synthetically generated captions, leveraging cutting-edge vision-language models (such as Gemini 1.0 Pro Vision) for detailed and accurate descriptions. The dataset includes multiple columns such as unique identifier, image URL, original caption, model-generated dense caption, toxicity scores, etc. The dataset is structured in detail, providing rich information for tasks such as image-to-text, text-to-image, and visual question answering.
提供机构:
lodestone-horizon
原始信息汇总

PixelProse 数据集概述

数据集基本信息

  • 名称: PixelProse
  • 许可证: CC BY 4.0
  • 任务类别:
    • 图像到文本
    • 文本到图像
    • 视觉问答
  • 语言: 英语
  • 标签: croissant
  • 大小: 10M < n < 100M

数据集配置

  • 配置名称: default
  • 数据文件:
    • 训练集: data/vlm_captions_*.parquet
    • CC12M: data/vlm_captions_cc12m_*.parquet
    • RedCaps: data/vlm_captions_redcaps_*.parquet

数据集详情

  • 总图像-文本对数: 16,896,423 (16.9M)
    • CommonPool: 6,539,107 (6.5M) 对
    • CC12M: 9,066,455 (9.1M) 对
    • RedCaps: 1,290,861 (1.3M) 对

数据集结构

  • 列信息:
    • uid: 图像的唯一标识符
    • url: 图像的URL
    • key: 图像关联的键
    • status: vlm_model返回的运行状态
    • original_caption: 从源继承的原始描述
    • vlm_model: 用于生成描述的模型
    • vlm_caption: PixelProse的密集描述
    • toxicity: 描述的毒性评分
    • severe_toxicity: 描述的严重毒性评分
    • obscene: 描述的猥亵评分
    • identity_attack: 描述的身份攻击评分
    • insult: 描述的侮辱评分
    • threat: 描述的威胁评分
    • sexual_explicit: 描述的性显式评分
    • watermark_class_id: 水印分类 (0 = 带水印的图像, 1 = 无水印的图像, 2 = 无水印但有文本的图像)
    • watermark_class_score: 每个水印类别的预测分数,范围为 [0, 1]
    • aesthetic_score: 美学评分,范围为 [0, 10]
    • error_message: vlm_model返回的错误信息
    • width / height: 用于运行vlm_model的图像尺寸
    • original_width / original_height: 图像的原始尺寸
    • exif: 图像文件的EXIF信息
    • sha256: 图像文件的SHA256哈希
    • image_id, author, subreddit, score: 从RedCaps继承的属性,CC12M和CommonPool中不可用
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作