lodestone-horizon/pixelprose
收藏Hugging Face2024-06-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/lodestone-horizon/pixelprose
下载链接
链接失效反馈官方服务:
资源简介:
PixelProse是一个包含超过1600万条合成生成的图像描述的综合数据集,这些描述利用了先进的视觉语言模型(如Gemini 1.0 Pro Vision)来生成详细和准确的描述。数据集包括多个列,如唯一标识符、图像URL、原始描述、模型生成的密集描述、毒性评分等。数据集的结构详细,提供了丰富的信息用于图像到文本、文本到图像和视觉问答等任务。
PixelProse is a comprehensive dataset of over 16 million synthetically generated captions, leveraging cutting-edge vision-language models (such as Gemini 1.0 Pro Vision) for detailed and accurate descriptions. The dataset includes multiple columns such as unique identifier, image URL, original caption, model-generated dense caption, toxicity scores, etc. The dataset is structured in detail, providing rich information for tasks such as image-to-text, text-to-image, and visual question answering.
提供机构:
lodestone-horizon
原始信息汇总
PixelProse 数据集概述
数据集基本信息
- 名称: PixelProse
- 许可证: CC BY 4.0
- 任务类别:
- 图像到文本
- 文本到图像
- 视觉问答
- 语言: 英语
- 标签: croissant
- 大小: 10M < n < 100M
数据集配置
- 配置名称: default
- 数据文件:
- 训练集:
data/vlm_captions_*.parquet - CC12M:
data/vlm_captions_cc12m_*.parquet - RedCaps:
data/vlm_captions_redcaps_*.parquet
- 训练集:
数据集详情
- 总图像-文本对数: 16,896,423 (16.9M)
- CommonPool: 6,539,107 (6.5M) 对
- CC12M: 9,066,455 (9.1M) 对
- RedCaps: 1,290,861 (1.3M) 对
数据集结构
- 列信息:
uid: 图像的唯一标识符url: 图像的URLkey: 图像关联的键status:vlm_model返回的运行状态original_caption: 从源继承的原始描述vlm_model: 用于生成描述的模型vlm_caption: PixelProse的密集描述toxicity: 描述的毒性评分severe_toxicity: 描述的严重毒性评分obscene: 描述的猥亵评分identity_attack: 描述的身份攻击评分insult: 描述的侮辱评分threat: 描述的威胁评分sexual_explicit: 描述的性显式评分watermark_class_id: 水印分类 (0= 带水印的图像,1= 无水印的图像,2= 无水印但有文本的图像)watermark_class_score: 每个水印类别的预测分数,范围为[0, 1]aesthetic_score: 美学评分,范围为[0, 10]error_message:vlm_model返回的错误信息width / height: 用于运行vlm_model的图像尺寸original_width / original_height: 图像的原始尺寸exif: 图像文件的EXIF信息sha256: 图像文件的SHA256哈希image_id,author,subreddit,score: 从RedCaps继承的属性,CC12M和CommonPool中不可用



