KubriCount

github2026-05-12 更新2026-05-13 收录

下载链接：

https://github.com/Verg-Avesta/KubriCount

下载链接

链接失效反馈

官方服务：

资源简介：

KubriCount是一个大规模合成基准，用于多粒度视觉计数，支持开放世界计数设置，其中计数粒度必须明确：身份、属性、类别、实例类型或概念。该数据集包含110,507张图像、157个类别、约730万个标注对象，每张图像最多250个对象，提供密集标注（如计数、中心点、2D/3D边界框、掩码和元数据），并设计有受控泛化分割（如训练集、测试A集和测试B集）。

KubriCount is a large-scale synthetic benchmark for multi-granularity visual counting, supporting the open-world counting setting where the counting granularity must be explicitly defined: identity, attribute, category, instance type, or concept. This dataset contains 110,507 images across 157 categories, with approximately 7.3 million annotated objects, and each image holds up to 250 objects. It provides dense annotations such as object counts, centroid points, 2D/3D bounding boxes, masks, and metadata, and is equipped with controlled generalization splits including the training set, Test Set A, and Test Set B.

创建时间：

2026-05-10

原始信息汇总

数据集概述

KubriCount 是一个大规模、多粒度的合成视觉计数基准数据集，旨在支持开放世界计数场景，要求明确指定计数的粒度（如身份、属性、类别、实例类型或概念）。

核心特性

多粒度计数基准：定义了五个明确的语义层级（L1-L5），覆盖从身份级到概念级的计数任务。
全自动数据扩缩流水线：基于3D资产筛选、Kubric原型合成、一致性图像编辑和自动质量过滤，无需人工标注。
密集标注：提供计数、中心点、2D/3D边界框、掩码及元数据。
大规模规模：包含 110,507 张图像、157 个类别、约 730万 个标注对象，单张图像最多含 250 个对象。
可控泛化划分：分为训练集、测试集A（见过类别中的未见过资产）和测试集B（未见过类别）。

粒度层级

层级	粒度	描述
L1	身份级	对单一同种对象的所有实例计数。
L2	属性级	按尺寸或颜色区分对象的计数。
L3	类别级	对一个类别计数，同时排除另一类别。
L4	实例级	在同一类别内对一种实例类型计数。
L5	概念级	对包含多种实例类型及语义合理干扰物的类别/概念计数。

数据划分

train：约 100K 图像，来自已见类别，排除测试集A的预留资产。
testA：约 5K 图像，包含已见类别中的未见过资产。
testB：约 5K 图像，包含未见过类别。

对于层级L2-L5，每张图像可通过交换目标和干扰物组定义两个计数查询，总计约 198K 个查询。

数据获取与使用

数据集可直接从 Hugging Face 下载使用：

https://huggingface.co/datasets/liuchang666/KubriCount

下载后解压至本地目录 KubriCount/ 即可，无需运行生成流水线。

生成流水线（仅用于复现或扩展）

生成过程分为四个阶段：

3D资产筛选：从标注3D数据集和可控3D生成中构建分类对象资产库。
原型合成：使用 Kubric、PyBullet 和 Blender 渲染可控的多对象场景，并附带精确的实例级元数据。
一致性图像编辑：提升视觉逼真度，同时保持对象拓扑和标注不变。
自动数据过滤：使用VLM检查器拒绝存在布局偏移、计数变化、身份混乱、背景幻觉或严重伪影的样本。

引用

bibtex @article{liu2026count, title={Count Anything at Any Granularity}, author={Liu, Chang and Wu, Haoning and Xie, Weidi}, journal={arXiv preprint arXiv:2605.10887}, year={2026} }

许可证

本仓库基于 Apache License 2.0 发布。

搜集汇总

数据集介绍

构建方式

KubriCount的构建是一个全自动化、多阶段的数据生成流程。首先，从标注的3D数据集与可控生成技术中构建分类化的对象资产库。其次，借助Kubric、PyBullet与Blender渲染引擎，生成包含精确实例级元数据的多对象可控场景原型。随后，通过掩码条件图像编辑提升视觉真实感，同时保持对象拓扑与注释的完整性。最后，利用视觉语言模型（VLM）进行自动质量过滤，剔除存在布局漂移、计数变化、身份损坏或背景幻觉的样本，确保标注的准确性与一致性。

特点

该数据集的核心特色在于其多粒度视觉计数能力，明确定义了身份、属性、类别、实例类型与概念五个语义层级，支持从细粒度到抽象概念的灵活计数。包含约11万张图像、157个类别、超过730万个标注对象，单图最多容纳250个对象，规模宏大。同时提供密集标注，涵盖计数、中心点、2D/3D边界框、遮罩与元数据，并设计了针对可见类别、未见资产与未见类别的受控泛化测试分割，为开放世界计数提供全面的评估基准。

使用方法

使用KubriCount数据集的便捷途径是从Hugging Face平台直接下载并解压至本地目录，无需运行复杂的生成管线即可直接用于模型训练与评估。数据集已按训练集、测试集A与测试集B组织，分别对应可见类别、未见资产与未见类别的泛化测试场景。对于希望重现或扩展数据集的用户，可依据提供的Docker环境与资产库运行渲染、编辑及过滤脚本，通过命令行参数灵活控制场景生成与后处理流程。

背景与挑战

背景概述

KubriCount是由刘畅、吴昊宁和谢维迪等研究者于2026年提出的多粒度视觉计数基准数据集，其核心目标在于解决开放世界场景中计数粒度的明确性问题。该数据集通过构建包含身份、属性、类别、实例和概念五种显式语义层次的计数任务，为视觉计数领域提供了前所未有的细粒度评估框架。KubriCount利用可控的3D合成、掩码条件图像编辑和大语言模型驱动的自动过滤流水线，生成了包含110,507张图像、157个类别及约730万个标注对象的大规模语料库，每个图像最多包含250个对象。该数据集在物体计数领域树立了新的标杆，为细粒度视觉理解研究提供了关键基础设施，尤其推动了从粗略的数数到精细的语义化计数的范式转变。

当前挑战

KubriCount所应对的核心领域挑战是多粒度计数中难以同时兼顾语义准确性与实例区分度的问题。传统计数任务多局限于单一粒度的数量估计，缺乏对多样性场景下不同计数层级（如区分同类物体中的不同实例）的系统支持。在数据集构建过程中，面临的主要挑战包括：1）3D资产库的构建需要实现跨类别物体的精确标注与语义对齐；2）可控渲染需平衡场景复杂度与物理真实性，确保合成图像中对象间遮挡与排列的合理性；3）掩码条件图像编辑需在提升视觉真实感的同时保持对象拓扑结构与原始标注的一致性；4）基于大语言模型的自动过滤机制需有效识别并剔除布局漂移、身份篡改、背景幻觉等各类劣质样本，确保数据质量的可控性与可扩展性。

常用场景

经典使用场景

KubriCount作为面向开放世界多粒度视觉计数的合成基准数据集，最为经典的使用场景在于评估和驱动模型在五个显式语义层级——身份级、属性级、类别级、实例级和概念级——上的计数能力。研究者可借助该数据集对模型进行细粒度的泛化性能测试，例如在训练集涵盖的157个类别上进行训练后，在包含未见资产和未见类别的测试集上检验模型对未知视觉概念的推理与泛化能力，从而系统性地衡量模型在复杂、开放环境下的计数鲁棒性。

实际应用

在真实世界的应用场景中，KubriCount所定义的多粒度计数范式具有广泛的落地价值。例如，在工业质检领域，系统可能需要同时统计产品总数（身份级）、特定颜色或尺寸的次品数（属性级）以及不同型号的分布情况（类别级）；在智慧零售场景中，货架商品盘点不仅需要统计总商品数量，还需求按品牌或品类进行分类计数；在自动驾驶中，对道路参与者的感知亦需区分行人、车辆等类别，并进一步识别同类物体的不同子类型。KubriCount提供的数据生成管道和评估协议，为这些复杂应用场景中计数模型的开发与验证提供了标准化且高度可控的测试平台。

衍生相关工作

KubriCount的发布催生了一系列衍生研究工作，极大地拓展了多粒度视觉计数的研究边界。一方面，基于其公开的可控合成管道，研究者能够灵活地扩展数据集范围，引入新的类别或更复杂的语义层级，从而定制化地探索特定粒度下的计数挑战；另一方面，该数据集的训练/测试拆分设计——包括类别内未见资产和完全未见类别——直接启发了后续关于开放世界计数泛化能力的系统性研究，例如将其作为基准来评估计数模型的零样本或少样本迁移能力。此外，KubriCount中的VLM自动过滤与图像编辑流水线，也为合成数据生成中的质量控制与真实性增强提供了可复用的方法论参考，促进了高质量合成视觉数据集的构建范式创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集