BingRecycle40k

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/lreal/BingRecycle40k

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集是通过Bing图像爬虫iCrawler抓取的回收和垃圾相关的图像集合。数据集经过去重、去除水印和无关图像等处理后，最终包含了20k张高质量的图像。数据集适用于YOLO分类任务，并提供了相应的转换工具。

创建时间：

2025-08-08

原始信息汇总

BingRecycle40k 数据集概述

基本描述

许可证: MIT
语言: 英语 (en)
标签: yolo, yolo classify, yolo cls, recycle, trash

数据集内容

数据来源: 通过iCrawler机器人从Bing图片抓取
初始规模: 75k张网络抓取图片
处理后规模: 40k张图片
- 重复图片: 15k张（通过MD5哈希比对发现）
- 低质量图片: 20k张（经筛选后移除）

数据处理流程

去重: 使用MD5哈希比对
清理:
- 移除不相关图片
- 去除水印横幅和水印
筛选: 使用VLM（视觉语言模型）进行最终筛选，确定可用于测试数据的图片

使用方式

下载数据集: bash wget https://huggingface.co/datasets/lreal/BingRecycle40k/resolve/main/BingRecycle40k_rev1.zip
下载类别文件: bash wget https://huggingface.co/datasets/lreal/BingRecycle40k/resolve/main/classes.txt
自定义分割: 使用YOLO Conversion Repo进行自动化处理

常见问题

水印（包括符号和线条）
横幅水印（通常在图片底部）
不正确的图片（显示完全不同的对象）
混乱的背景（拥挤的人物、其他对象、PNG背景等）
图片上的文字（如产品照片中的文字描述）
非照片写实的图片（剪贴画、插图、绘图等）
重复图片（出现在相似的查询结果中）

设计过程

网络抓取: 使用Bing图片作为来源
识别重复: 使用MD5哈希比对
去除水印横幅: 通过灰度转换和暗度值检测
水印检测: 优化CUDA设备性能并实现批量处理
水印去除: 使用LAMA模型进行大规模数据集处理
VLM筛选: 使用Ollama本地服务器进行最终筛选
YOLO转换: 将数据集转换为YOLO分类格式

改进方向

水印处理: 训练自定义分割模型以提高水印检测和去除效果
数据规模: 扩展网络抓取查询，使用同义词策略增加图片多样性
优化: 提升处理流程的运行效率

搜集汇总

数据集介绍

构建方式

在构建BingRecycle40k数据集的过程中，研究团队采用了多阶段精细处理流程。初始阶段通过iCrawler机器人从Bing图像中爬取了约75,000张原始图片。随后运用MD5哈希值比对技术剔除了15,000张重复图像，并基于视觉质量评估移除了20,000张低质量样本。针对网络爬取数据常见的缺陷，团队开发了系列自动化处理工具：包括基于灰度滤波的横幅水印裁剪算法、结合YOLO检测与OWLv2筛选的水印掩模生成系统、采用LAMA模型的批量修复技术，以及基于qwen2.5vl视觉语言模型的最终质量筛查。整个流程特别设计了测试集专属的样本回收机制，将存在瑕疵但尚可用的图像单独归类。

特点

该数据集作为专注于可回收物品识别的视觉资源，其核心价值体现在严格的质量控制体系。不同于常规网络爬取数据集，它通过五层过滤机制确保了样本纯净度：哈希去重、自动水印处理、背景复杂度评估、文本内容清除以及非真实图像剔除。数据集特别优化了YOLO分类任务的适配性，提供预设的train/val/test划分方案。值得注意的是，测试集中保留了经过VLM验证的'边缘样本'，这为模型鲁棒性评估提供了独特挑战。技术文档中详细披露了每类缺陷的处理数量和质量标准，为研究者提供了透明的数据溯源依据。

使用方法

为便于研究者快速开展实验，数据集提供两种获取方式：直接下载预处理的ZIP压缩包或通过GitHub工具链自定义数据划分。推荐使用wget命令分别获取主数据集文件(BingRecycle40k_rev1.zip)和类别标签文件(classes.txt)。对于需要定制数据划分的用户，作者提供的YOLO格式转换工具库支持自动化处理流程，该工具能解析前期处理阶段生成的JSON元数据，智能分配训练集与验证集样本。所有图像均已预处理为统一尺寸，并附带完整的类别标注信息，可直接用于YOLO分类模型的训练与评估。技术文档中特别强调了测试集的特殊构成，建议用户在模型评估阶段予以特别关注。

背景与挑战

背景概述

BingRecycle40k数据集是近年来针对垃圾分类与回收领域构建的视觉识别资源，由研究者lreal通过Bing图像搜索引擎系统性地爬取并清洗而成。该数据集最初包含75,000张网络图像，经过MD5哈希去重和视觉语言模型筛选后，最终保留40,000张高质量样本。其构建过程体现了计算机视觉领域对真实场景数据的需求，特别是在环境科学与可持续技术交叉领域，为基于YOLO架构的垃圾分类算法提供了重要基准。数据集采用模块化处理流程，涵盖网络爬取、水印消除、视觉筛选等创新方法，反映了当前视觉数据工程的前沿实践。

当前挑战

该数据集面临的核心挑战主要体现在两方面：领域问题层面，垃圾分类任务需克服复杂背景干扰、多类别视觉相似性以及非标准拍摄角度等识别难题；构建过程层面，网络爬取数据存在20%重复率与26.7%低质量样本淘汰率，水印检测与消除算法对线条符号类标记的识别准确率不足，视觉语言模型筛选阶段存在30小时级计算耗时。此外，跨搜索引擎的图像语义一致性保障、合成水印数据的模型泛化能力提升，以及处理流程的并行化优化，都是亟待突破的技术瓶颈。

常用场景

经典使用场景

在计算机视觉领域，BingRecycle40k数据集为垃圾分类与回收识别任务提供了高质量的图像资源。该数据集经过严格筛选与清洗，适用于训练基于YOLO架构的分类模型，帮助研究人员构建精准的废弃物识别系统。其独特的处理流程确保了图像质量，为模型训练提供了可靠的数据基础。

解决学术问题

该数据集有效解决了网络爬取图像中常见的质量问题，包括水印去除、重复图像检测以及非真实感图像过滤等关键问题。通过多阶段处理流程，为学术界提供了研究图像数据清洗与增强技术的标准化案例，推动了计算机视觉领域数据预处理方法的发展。

衍生相关工作

围绕该数据集已衍生出多项创新工作，包括基于LAMA模型的图像修复技术、利用OWLv2进行快速筛选的方法，以及结合Ollama的视觉语言模型筛选系统。这些工作共同构成了一个完整的数据处理框架，为后续类似数据集的建设提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集