actdan2016/sample1

Name: actdan2016/sample1
Creator: actdan2016
Published: 2022-08-29 02:12:39
License: 暂无描述

Hugging Face2022-08-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/actdan2016/sample1

下载链接

链接失效反馈

官方服务：

资源简介：

RedCaps是一个包含1200万张从Reddit收集的图像-文本对的大规模数据集。这些图像和文本描述了广泛的物体和场景，数据来自350个手动筛选的Reddit子版块。数据集的设计考虑了用户隐私和有害内容的过滤，主要语言为英语。数据集的创建过程完全自动化，无需人工标注。

提供机构：

actdan2016

原始信息汇总

数据集概述

内容类型: 图像
描述: RedCaps是一个包含12M图像-文本对的大型数据集，数据来源于Reddit。图像和标题涵盖了广泛的物体和场景描述。数据集从350个手动筛选的子论坛中收集，这些子论坛提供了粗略的图像标签，使得数据集的组成可以被调整，而无需对单个实例进行标注。

筛选理由: 数据集旨在用于预训练，以服务于一个或多个特定的下游任务。数据收集自手动筛选的子论坛，这些子论坛允许在不标注单个实例的情况下调整数据集的组成。
源数据: 数据收集自2008年至2020年间选定的350个子论坛的图像帖子。帖子在创建至少六个月后被收集，以确保投票稳定。
标注: 数据集使用自动数据收集管道构建，无需人工标注。
个人和敏感信息: 数据集包含Reddit用户名，可能用于查找用户个人资料。此外，使用面部检测器移除可能包含人类面部的图像。

5,000+

优质数据集

54 个

任务类型

进入经典数据集