five

kakaobrain/coyo-labeled-300m

收藏
Hugging Face2022-11-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kakaobrain/coyo-labeled-300m
下载链接
链接失效反馈
官方服务:
资源简介:
COYO-Labeled-300M是一个包含300M图像-多标签对的数据集,这些标签是由一个在imagenet-21k上训练的大型模型(efficientnetv2-xl)自动生成的。数据集类似于ImageNet,但规模更大,且标签是机器生成的。每个数据实例包含图像的URL、图像的感知哈希值、标签索引及其对应的概率。数据集主要用于多标签图像分类任务,用户可以根据标签概率选择适当的阈值进行分类。数据集的语言为英文,且没有进行数据分割,因为预期评估将在更广泛使用的下游任务上进行。
提供机构:
kakaobrain
原始信息汇总

数据集概述

数据集基本信息

  • 名称: COYO-Labeled-300M
  • 语言: 英语
  • 许可证: CC-BY-4.0
  • 多语言性: 单语
  • 大小: 100M<n<1B
  • 来源: 原始数据
  • 标签创建者: 无人工标注
  • 标签语言创建者: 其他
  • 任务类别: 图像分类
  • 任务ID: 多标签图像分类

数据集描述

数据集总结

COYO-Labeled-300M是一个包含3亿机器标注的图像-多标签对的数据集。该数据集使用在ImageNet-21k上训练的大型模型(efficientnetv2-xl)对COYO-700M的子集进行标注。每个图像提供前50个最可能的标签及其概率,标签来自ImageNet-21k的21,841个类别。

支持的任务和排行榜

数据集通过重新实现流行的模型ViT来验证其质量,结果显示在COYO-Labeled-300M上训练的ViT模型性能与在JFT-300M上训练的ViT模型性能相似。此外,还提供了在COYO-Labeled-300M上预训练的ViT模型的权重及其训练和微调代码。

数据集结构

数据实例

每个实例包含图像和多标签信息,以及标签概率和图像的元属性。

数据字段

  • id: 唯一64位整数ID
  • url: 图像URL
  • imagehash: 图像的感知哈希值
  • labels: 模型推理结果的标签索引
  • label_probs: 模型推理结果的标签概率
  • width: 图像宽度
  • height: 图像高度

数据分割

数据未分割,预期在更广泛使用的下游任务上进行评估。

数据集创建

筛选理由

数据集是从COYO-700M中筛选出的一部分,使用在ImageNet-21k上训练的模型进行标注,筛选过程类似于jft-300m,并根据特定阈值筛选出概率最高的标签。

源数据

数据来源于COYO-700M,由Common Crawl提供。

标注过程

数据集的构建是一个完全自动化的过程,无需人工标注。

个人和敏感信息

数据集遵循与COYO-700M相同的指导原则、许可证和贡献者信息。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作