five

actdan2016/sample1

收藏
Hugging Face2022-08-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/actdan2016/sample1
下载链接
链接失效反馈
官方服务:
资源简介:
RedCaps是一个包含1200万张从Reddit收集的图像-文本对的大规模数据集。这些图像和文本描述了广泛的物体和场景,数据来自350个手动筛选的Reddit子版块。数据集的设计考虑了用户隐私和有害内容的过滤,主要语言为英语。数据集的创建过程完全自动化,无需人工标注。
提供机构:
actdan2016
原始信息汇总

数据集概述

基本信息

  • 名称: RedCaps
  • 语言: 英语
  • 许可证: CC-BY-4.0
  • 多语言性: 单语种
  • 大小: 10M<n<100M
  • 数据来源: 原始数据
  • 任务类别: 图像到文本
  • 任务ID: 图像标题生成
  • 论文代码ID: redcaps
  • 美观名称: RedCaps

数据集内容

  • 内容类型: 图像
  • 描述: RedCaps是一个包含12M图像-文本对的大型数据集,数据来源于Reddit。图像和标题涵盖了广泛的物体和场景描述。数据集从350个手动筛选的子论坛中收集,这些子论坛提供了粗略的图像标签,使得数据集的组成可以被调整,而无需对单个实例进行标注。

数据集结构

  • 数据实例: 每个实例代表一个Reddit图像帖子,包含图像ID、作者、图像URL、原始标题、标题、子论坛、评分、创建时间、永久链接和跨帖子父级等信息。
  • 数据字段: 包括图像ID、作者、图像URL、原始标题、标题、子论坛、评分、创建时间、永久链接和跨帖子父级。
  • 数据分割: 所有数据包含在训练集中,训练集包含近12M实例。

数据集创建

  • 筛选理由: 数据集旨在用于预训练,以服务于一个或多个特定的下游任务。数据收集自手动筛选的子论坛,这些子论坛允许在不标注单个实例的情况下调整数据集的组成。
  • 源数据: 数据收集自2008年至2020年间选定的350个子论坛的图像帖子。帖子在创建至少六个月后被收集,以确保投票稳定。
  • 标注: 数据集使用自动数据收集管道构建,无需人工标注。
  • 个人和敏感信息: 数据集包含Reddit用户名,可能用于查找用户个人资料。此外,使用面部检测器移除可能包含人类面部的图像。

使用数据的考虑

  • 社会影响: 数据集未进行数据保护影响分析。
  • 偏见讨论: 数据集选择非NSFW子论坛进行数据收集,并使用模型过滤NSFW图像和潜在的贬义语言,以减少有害刻板印象。

附加信息

  • 数据集管理员: 未提供具体信息。
  • 许可信息: 数据集遵循CC-BY-4.0许可证。
  • 引用信息: 未提供具体信息。
  • 贡献: 未提供具体信息。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作