five

ontocord/augmented-recap-datacomp-3m

收藏
Hugging Face2024-07-08 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/ontocord/augmented-recap-datacomp-3m
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是对Recap-Datacomp-1B的约300万条合成标题的实验性增强,其中包括约200万条多语言标题。在处理过程中,数据集尝试平衡性别刻板印象、职业、种族、工会成员身份和宗教等因素,并对头发颜色和眼睛颜色进行了平衡处理。此外,还包括句子顺序的排列和物品数量的修改。数据集还通过spawning.ai API过滤了截至2024年6月15日的退出请求。数据集的潜在用途包括生成合成图像,特别是创建比真实图像更匿名的人物图像。

该数据集是对Recap-Datacomp-1B的约300万条合成标题的实验性增强,其中包括约200万条多语言标题。在处理过程中,数据集尝试平衡性别刻板印象、职业、种族、工会成员身份和宗教等因素,并对头发颜色和眼睛颜色进行了平衡处理。此外,还包括句子顺序的排列和物品数量的修改。数据集还通过spawning.ai API过滤了截至2024年6月15日的退出请求。数据集的潜在用途包括生成合成图像,特别是创建比真实图像更匿名的人物图像。
提供机构:
ontocord
原始信息汇总

数据集概述

任务类别

  • 零样本分类
  • 文本检索
  • 图像到文本
  • 文本到图像

许可

  • CC BY 4.0

数据集描述

  • 这是一个实验性的增强数据集,包含约300万条合成字幕,源自Recap-Datacomp-1B。
  • 该数据集包含约200万条多语言字幕。
  • 数据集尝试平衡性别刻板印象,并在子样本中增加了种族、工会成员身份和宗教信息。
  • 数据集还包括一些句子顺序的排列和物品数量的修改(例如,“Two”改为“Three”、“Four”等)。

潜在用途

  • 用于生成合成图像。

语言

  • 包含的语言有:保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、爱尔兰语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、越南语、简体中文、阿拉伯语、俄语、印地语、斯瓦希里语、日语、韩语、印尼语。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作