isidentical/moondream2-coyo-5M-captions
收藏Hugging Face2024-05-13 更新2024-05-18 收录
下载链接:
https://hf-mirror.com/datasets/isidentical/moondream2-coyo-5M-captions
下载链接
链接失效反馈官方服务:
资源简介:
Moondream2 COYO-700M 5M子集标注数据集是COYO-700M数据集的500万图像-文本对子集,使用Moondream2模型进行标注。标注问题为根据给定的alt文本为这张图片写一个长描述:{alt_text}。采样条件包括从COYO-700M中随机选取500万张图像,并应用了宽度、高度、美学评分、水印评分和CLIP相似度等过滤器。
The Moondream2 COYO-700M 5M Subset Annotated Dataset is a 5-million image-text pair subset of the COYO-700M dataset, annotated using the Moondream2 model. The annotation task requires generating a detailed description for the corresponding image based on the provided alt text: {alt_text}. The sampling conditions include randomly selecting 5 million images from COYO-700M, with filters applied for image width, height, aesthetic score, watermark score, and CLIP similarity.
提供机构:
isidentical
原始信息汇总
数据集概述
基本信息
- 名称: Moondream2 COYO-700M 5M Subset Captions
- 大小: 500万对图像与文本
- 语言: 英语 (en)
- 任务类别:
- 文本到图像
- 图像到文本
- 视觉问答
数据集特征
- key: 字符串
- url: 字符串
- alt_text: 字符串
- moondream2_caption: 字符串
- sha256: 字符串
数据集划分
- 训练集:
- 样本数: 5005590
- 数据大小: 2061782765 字节
- 下载大小: 1506760111 字节
配置
- 默认配置:
- 数据文件路径: data/train-*
采样条件
- 图像尺寸: 宽度不小于256像素,高度不小于256像素
- 美学评分: 不低于5.2 (基于laion_v2)
- 水印评分: 不超过0.40
- 剪辑相似度: 不低于0.1 (基于vitl14)
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



