tudobonus

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/TudoBonus/tudobonus

下载链接

链接失效反馈

官方服务：

资源简介：

TudoBonus是一个大规模多模态数据集，专注于再制造家用电器领域，旨在支持细粒度分类、缺陷检测、跨模态检索和持续学习等任务。数据集包含457,000张图像，涵盖492个SKU，每个产品有15个标注的元数据特征，产品描述以葡萄牙语和英语提供。数据集覆盖16个产品类别（如冰箱、洗衣机、炉灶、洗碗机等），并包含97,162个用于缺陷检测的边界框标注。元数据文件metadata.csv通过interaction_id字段链接到对应的图像文件夹。数据集支持多种任务，包括SKU分类、缺陷检测、文本到图像检索、图像到文本检索、持续学习和零样本分类。数据集以CC BY 4.0许可发布，适用于研究和商业用途，但需注意其地理、品牌和语言偏差。

TudoBonus is a large-scale multimodal dataset focused on the remanufactured home appliance domain, designed to support tasks such as fine-grained classification, defect detection, cross-modal retrieval, and continual learning. The dataset contains 457,000 images covering 492 SKUs, with each product having 15 annotated metadata features and product descriptions provided in both Portuguese and English. It spans 16 product categories (e.g., refrigerators, washing machines, stoves, dishwashers) and includes 97,162 bounding box annotations for defect detection. The metadata file metadata.csv links to corresponding image folders via the interaction_id field. The dataset supports various tasks including SKU classification, defect detection, text-to-image retrieval, image-to-text retrieval, continual learning, and zero-shot classification. Released under the CC BY 4.0 license, it is suitable for both research and commercial use, with noted geographic, brand, and language biases.

创建时间：

2026-05-07

搜集汇总

数据集介绍

构建方式

TudoBonus数据集的构建立足于循环经济领域对再制造家电产品的细粒度分析需求，通过系统性地收集与标注大规模多模态数据而成。该数据集涵盖492个SKU、共计457,000张图像，每件产品均配备15项精心注释的元数据特征，包括产品类别、品牌、颜色、尺寸、电压等结构化信息，以及葡萄牙语和英语的双语描述。缺陷检测部分则提供了97,162个边界框标注，用于定位产品表面的瑕疵。数据以interaction_id为主键关联图像文件夹与元数据表，确保了多模态信息的高效整合与可追溯性。

特点

该数据集的核心特色在于其专为循环经济场景设计的综合性与多任务支持能力。它不仅涵盖16种家电品类，还提供了再制造质量等级（quality_label）等独特标签，适用于细粒度分类。多模态特性体现在图像、文本描述及结构化元数据的协同使用上，支持图像分类、目标检测、跨模态检索及持续学习等任务。此外，数据集中存在品牌分布不均（如Electrolux占主导）、地域偏差（聚焦巴西市场）等现实特性，使其成为研究模型鲁棒性与公平性的理想基准。

使用方法

研究者可通过HuggingFace Datasets库直接加载该数据集，使用简单的Python代码`load_dataset("TudoBonus/tudobonus")`即可获取训练与测试分片。针对需要精细控制的研究，也可借助Croissant元数据文件以更灵活的ML格式进行数据迭代。该数据集预设了多个任务的基线评估方案，如SKU分类可采用SigLIP2或DINOv2模型，缺陷检测则建议使用YOLOv8m，而跨模态检索任务推荐基于CLIP的架构。持续学习场景可利用其时间戳字段构造数据流，模拟分布迁移。

背景与挑战

背景概述

TudoBonus数据集由匿名研究团队于2026年创建，旨在推动循环经济领域中再制造家电的细粒度分类与多模态理解研究。该数据集包含约45.7万张图像，覆盖492种库存单位（SKU），并附有15项元数据特征、双语产品描述（葡萄牙语与英语）及超过9.7万个缺陷检测边界框注释。其核心研究问题聚焦于再制造产品的质量评估、缺陷检测、跨模态检索与持续学习，填补了工业视觉数据集在可持续消费电子领域的空白。作为NeurIPS 2026数据集与基准评测轨道的提交成果，TudoBonus为自动化回收与再制造系统提供了标准化评测平台，对推动环境智能与循环经济中的计算机视觉应用具有重要示范意义。

当前挑战

TudoBonus数据集面临的核心挑战源于其应对的领域问题与构建过程的复杂性。领域层面，再制造家电的细粒度分类需区分高度相似的产品变体（如同款不同电压或批次），且缺陷检测需在真实工业场景中识别微小、稀疏的瑕疵（如划痕、凹陷），传统图像分类模型在此任务上最佳平衡准确率仅达0.60（SigLIP2/DINOv2），缺陷检测mAP50-95仅18.40（YOLOv8m）。构建过程中，数据采集受限于巴西再制造市场的地域偏差（Electrolux品牌占据约22.4万张图像），导致品牌不平衡；英语描述依赖机器翻译，引入潜在语言偏差；此外，边界框注释仅覆盖24.1%的样本，稀疏标注限制了监督学习的有效性，而持续学习任务需模型在不遗忘旧知识的前提下增量吸收新SKU，进一步加剧了训练难度。

常用场景

经典使用场景

在循环经济与可持续制造的学术探讨中，TudoBonus数据集为细粒度产品分类与缺陷检测提供了极具价值的基准平台。其涵盖457,000张高分辨率图像及492个独立库存单位，横跨冰箱、洗衣机等16种家用电器品类，使得模型能够学习到不同产品型号间微妙的视觉差异。经典的分类任务聚焦于精确识别特定SKU，而缺陷检测任务则依托于97,162个边界框标注，以评估模型定位产品表面瑕疵的能力。研究者常将其作为评测多模态理解与持续学习算法性能的理想实验场。

解决学术问题

该数据集的构建，深刻回应了再制造领域中自动化视觉质检与产品溯源长期面临的数据匮乏困境。传统数据集多聚焦于自然场景或通用物体，鲜少涉及高价值、多类别的工业品翻新场景。TudoBonus凭借其丰富的元数据（涵盖品牌、颜色、尺寸、电压等15个属性），使得细粒度识别、跨模态检索与零样本泛化等前沿课题得以在真实工业情境中被系统性探索。其发布不仅填补了特定领域的空白，更推动了面向循环经济的智能视觉模型从理论走向实证研究。

衍生相关工作

围绕TudoBonus数据集，学术界已衍生出多项具有启发性的研究工作。基于其多视角图像与层级标注，研究者提出了面向再制造场景的持续学习框架，有效缓解了模型在新增SKU时的灾难性遗忘问题。同时，结合CLIP架构的对比预训练方法被广泛应用于零样本分类与跨模态检索，展现了语言-图像联合表征在工业细粒度任务中的巨大潜力。YOLOv8m等目标检测器也被调优以适配电器表面的特殊缺陷模式，为后续的轻量化工业部署积累了重要的基线参照。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集