ontocord/augmented-recap-datacomp-3m

Name: ontocord/augmented-recap-datacomp-3m
Creator: ontocord
Published: 2024-07-08 19:47:00
License: 暂无描述

Hugging Face2024-07-08 更新2024-06-25 收录

下载链接：

https://hf-mirror.com/datasets/ontocord/augmented-recap-datacomp-3m

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是对Recap-Datacomp-1B的约300万条合成标题的实验性增强，其中包括约200万条多语言标题。在处理过程中，数据集尝试平衡性别刻板印象、职业、种族、工会成员身份和宗教等因素，并对头发颜色和眼睛颜色进行了平衡处理。此外，还包括句子顺序的排列和物品数量的修改。数据集还通过spawning.ai API过滤了截至2024年6月15日的退出请求。数据集的潜在用途包括生成合成图像，特别是创建比真实图像更匿名的人物图像。

提供机构：

ontocord

原始信息汇总

数据集概述

任务类别

零样本分类
文本检索
图像到文本
文本到图像

许可

CC BY 4.0

数据集描述

这是一个实验性的增强数据集，包含约300万条合成字幕，源自Recap-Datacomp-1B。
该数据集包含约200万条多语言字幕。
数据集尝试平衡性别刻板印象，并在子样本中增加了种族、工会成员身份和宗教信息。
数据集还包括一些句子顺序的排列和物品数量的修改（例如，“Two”改为“Three”、“Four”等）。

潜在用途

用于生成合成图像。

语言

包含的语言有：保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、爱尔兰语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、越南语、简体中文、阿拉伯语、俄语、印地语、斯瓦希里语、日语、韩语、印尼语。

5,000+

优质数据集

54 个

任务类型

进入经典数据集