kakaobrain/coyo-labeled-300m
收藏Hugging Face2022-11-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kakaobrain/coyo-labeled-300m
下载链接
链接失效反馈官方服务:
资源简介:
COYO-Labeled-300M是一个包含300M图像-多标签对的数据集,这些标签是由一个在imagenet-21k上训练的大型模型(efficientnetv2-xl)自动生成的。数据集类似于ImageNet,但规模更大,且标签是机器生成的。每个数据实例包含图像的URL、图像的感知哈希值、标签索引及其对应的概率。数据集主要用于多标签图像分类任务,用户可以根据标签概率选择适当的阈值进行分类。数据集的语言为英文,且没有进行数据分割,因为预期评估将在更广泛使用的下游任务上进行。
提供机构:
kakaobrain
原始信息汇总
数据集概述
数据集基本信息
- 名称: COYO-Labeled-300M
- 语言: 英语
- 许可证: CC-BY-4.0
- 多语言性: 单语
- 大小: 100M<n<1B
- 来源: 原始数据
- 标签创建者: 无人工标注
- 标签语言创建者: 其他
- 任务类别: 图像分类
- 任务ID: 多标签图像分类
数据集描述
数据集总结
COYO-Labeled-300M是一个包含3亿机器标注的图像-多标签对的数据集。该数据集使用在ImageNet-21k上训练的大型模型(efficientnetv2-xl)对COYO-700M的子集进行标注。每个图像提供前50个最可能的标签及其概率,标签来自ImageNet-21k的21,841个类别。
支持的任务和排行榜
数据集通过重新实现流行的模型ViT来验证其质量,结果显示在COYO-Labeled-300M上训练的ViT模型性能与在JFT-300M上训练的ViT模型性能相似。此外,还提供了在COYO-Labeled-300M上预训练的ViT模型的权重及其训练和微调代码。
数据集结构
数据实例
每个实例包含图像和多标签信息,以及标签概率和图像的元属性。
数据字段
- id: 唯一64位整数ID
- url: 图像URL
- imagehash: 图像的感知哈希值
- labels: 模型推理结果的标签索引
- label_probs: 模型推理结果的标签概率
- width: 图像宽度
- height: 图像高度
数据分割
数据未分割,预期在更广泛使用的下游任务上进行评估。
数据集创建
筛选理由
数据集是从COYO-700M中筛选出的一部分,使用在ImageNet-21k上训练的模型进行标注,筛选过程类似于jft-300m,并根据特定阈值筛选出概率最高的标签。
源数据
数据来源于COYO-700M,由Common Crawl提供。
标注过程
数据集的构建是一个完全自动化的过程,无需人工标注。
个人和敏感信息
数据集遵循与COYO-700M相同的指导原则、许可证和贡献者信息。



