five

isidentical/moondream2-coyo-5M-captions

收藏
Hugging Face2024-05-13 更新2024-05-18 收录
下载链接:
https://hf-mirror.com/datasets/isidentical/moondream2-coyo-5M-captions
下载链接
链接失效反馈
官方服务:
资源简介:
Moondream2 COYO-700M 5M子集标注数据集是COYO-700M数据集的500万图像-文本对子集,使用Moondream2模型进行标注。标注问题为根据给定的alt文本为这张图片写一个长描述:{alt_text}。采样条件包括从COYO-700M中随机选取500万张图像,并应用了宽度、高度、美学评分、水印评分和CLIP相似度等过滤器。

The Moondream2 COYO-700M 5M Subset Annotated Dataset is a 5-million image-text pair subset of the COYO-700M dataset, annotated using the Moondream2 model. The annotation task requires generating a detailed description for the corresponding image based on the provided alt text: {alt_text}. The sampling conditions include randomly selecting 5 million images from COYO-700M, with filters applied for image width, height, aesthetic score, watermark score, and CLIP similarity.
提供机构:
isidentical
原始信息汇总

数据集概述

基本信息

  • 名称: Moondream2 COYO-700M 5M Subset Captions
  • 大小: 500万对图像与文本
  • 语言: 英语 (en)
  • 任务类别:
    • 文本到图像
    • 图像到文本
    • 视觉问答

数据集特征

  • key: 字符串
  • url: 字符串
  • alt_text: 字符串
  • moondream2_caption: 字符串
  • sha256: 字符串

数据集划分

  • 训练集:
    • 样本数: 5005590
    • 数据大小: 2061782765 字节
    • 下载大小: 1506760111 字节

配置

  • 默认配置:
    • 数据文件路径: data/train-*

采样条件

  • 图像尺寸: 宽度不小于256像素,高度不小于256像素
  • 美学评分: 不低于5.2 (基于laion_v2)
  • 水印评分: 不超过0.40
  • 剪辑相似度: 不低于0.1 (基于vitl14)
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作