actdan2016/sample1
收藏Hugging Face2022-08-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/actdan2016/sample1
下载链接
链接失效反馈官方服务:
资源简介:
RedCaps是一个包含1200万张从Reddit收集的图像-文本对的大规模数据集。这些图像和文本描述了广泛的物体和场景,数据来自350个手动筛选的Reddit子版块。数据集的设计考虑了用户隐私和有害内容的过滤,主要语言为英语。数据集的创建过程完全自动化,无需人工标注。
提供机构:
actdan2016
原始信息汇总
数据集概述
基本信息
- 名称: RedCaps
- 语言: 英语
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 大小: 10M<n<100M
- 数据来源: 原始数据
- 任务类别: 图像到文本
- 任务ID: 图像标题生成
- 论文代码ID: redcaps
- 美观名称: RedCaps
数据集内容
- 内容类型: 图像
- 描述: RedCaps是一个包含12M图像-文本对的大型数据集,数据来源于Reddit。图像和标题涵盖了广泛的物体和场景描述。数据集从350个手动筛选的子论坛中收集,这些子论坛提供了粗略的图像标签,使得数据集的组成可以被调整,而无需对单个实例进行标注。
数据集结构
- 数据实例: 每个实例代表一个Reddit图像帖子,包含图像ID、作者、图像URL、原始标题、标题、子论坛、评分、创建时间、永久链接和跨帖子父级等信息。
- 数据字段: 包括图像ID、作者、图像URL、原始标题、标题、子论坛、评分、创建时间、永久链接和跨帖子父级。
- 数据分割: 所有数据包含在训练集中,训练集包含近12M实例。
数据集创建
- 筛选理由: 数据集旨在用于预训练,以服务于一个或多个特定的下游任务。数据收集自手动筛选的子论坛,这些子论坛允许在不标注单个实例的情况下调整数据集的组成。
- 源数据: 数据收集自2008年至2020年间选定的350个子论坛的图像帖子。帖子在创建至少六个月后被收集,以确保投票稳定。
- 标注: 数据集使用自动数据收集管道构建,无需人工标注。
- 个人和敏感信息: 数据集包含Reddit用户名,可能用于查找用户个人资料。此外,使用面部检测器移除可能包含人类面部的图像。
使用数据的考虑
- 社会影响: 数据集未进行数据保护影响分析。
- 偏见讨论: 数据集选择非NSFW子论坛进行数据收集,并使用模型过滤NSFW图像和潜在的贬义语言,以减少有害刻板印象。
附加信息
- 数据集管理员: 未提供具体信息。
- 许可信息: 数据集遵循CC-BY-4.0许可证。
- 引用信息: 未提供具体信息。
- 贡献: 未提供具体信息。



