ontocord/augmented-recap-datacomp-3m
收藏Hugging Face2024-07-08 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/ontocord/augmented-recap-datacomp-3m
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是对Recap-Datacomp-1B的约300万条合成标题的实验性增强,其中包括约200万条多语言标题。在处理过程中,数据集尝试平衡性别刻板印象、职业、种族、工会成员身份和宗教等因素,并对头发颜色和眼睛颜色进行了平衡处理。此外,还包括句子顺序的排列和物品数量的修改。数据集还通过spawning.ai API过滤了截至2024年6月15日的退出请求。数据集的潜在用途包括生成合成图像,特别是创建比真实图像更匿名的人物图像。
该数据集是对Recap-Datacomp-1B的约300万条合成标题的实验性增强,其中包括约200万条多语言标题。在处理过程中,数据集尝试平衡性别刻板印象、职业、种族、工会成员身份和宗教等因素,并对头发颜色和眼睛颜色进行了平衡处理。此外,还包括句子顺序的排列和物品数量的修改。数据集还通过spawning.ai API过滤了截至2024年6月15日的退出请求。数据集的潜在用途包括生成合成图像,特别是创建比真实图像更匿名的人物图像。
提供机构:
ontocord
原始信息汇总
数据集概述
任务类别
- 零样本分类
- 文本检索
- 图像到文本
- 文本到图像
许可
- CC BY 4.0
数据集描述
- 这是一个实验性的增强数据集,包含约300万条合成字幕,源自Recap-Datacomp-1B。
- 该数据集包含约200万条多语言字幕。
- 数据集尝试平衡性别刻板印象,并在子样本中增加了种族、工会成员身份和宗教信息。
- 数据集还包括一些句子顺序的排列和物品数量的修改(例如,“Two”改为“Three”、“Four”等)。
潜在用途
- 用于生成合成图像。
语言
- 包含的语言有:保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、爱尔兰语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、越南语、简体中文、阿拉伯语、俄语、印地语、斯瓦希里语、日语、韩语、印尼语。



