five

BingRecycle40k

收藏
Hugging Face2025-08-09 更新2025-08-10 收录
下载链接:
https://huggingface.co/datasets/lreal/BingRecycle40k
下载链接
链接失效反馈
官方服务:
资源简介:
这个数据集是通过Bing图像爬虫iCrawler抓取的回收和垃圾相关的图像集合。数据集经过去重、去除水印和无关图像等处理后,最终包含了20k张高质量的图像。数据集适用于YOLO分类任务,并提供了相应的转换工具。

这个数据集是通过Bing图像爬虫iCrawler抓取的回收和垃圾相关的图像集合。数据集经过去重、去除水印和无关图像等处理后,最终包含了20k张高质量的图像。数据集适用于YOLO分类任务,并提供了相应的转换工具。
创建时间:
2025-08-08
原始信息汇总

BingRecycle40k 数据集概述

基本描述

  • 许可证: MIT
  • 语言: 英语 (en)
  • 标签: yolo, yolo classify, yolo cls, recycle, trash

数据集内容

  • 数据来源: 通过iCrawler机器人从Bing图片抓取
  • 初始规模: 75k张网络抓取图片
  • 处理后规模: 40k张图片
    • 重复图片: 15k张(通过MD5哈希比对发现)
    • 低质量图片: 20k张(经筛选后移除)

数据处理流程

  1. 去重: 使用MD5哈希比对
  2. 清理:
    • 移除不相关图片
    • 去除水印横幅和水印
  3. 筛选: 使用VLM(视觉语言模型)进行最终筛选,确定可用于测试数据的图片

使用方式

  • 下载数据集: bash wget https://huggingface.co/datasets/lreal/BingRecycle40k/resolve/main/BingRecycle40k_rev1.zip

  • 下载类别文件: bash wget https://huggingface.co/datasets/lreal/BingRecycle40k/resolve/main/classes.txt

  • 自定义分割: 使用YOLO Conversion Repo进行自动化处理

常见问题

  • 水印(包括符号和线条)
  • 横幅水印(通常在图片底部)
  • 不正确的图片(显示完全不同的对象)
  • 混乱的背景(拥挤的人物、其他对象、PNG背景等)
  • 图片上的文字(如产品照片中的文字描述)
  • 非照片写实的图片(剪贴画、插图、绘图等)
  • 重复图片(出现在相似的查询结果中)

相关工具与仓库

  • iCrawler scraper: 用于从网络抓取图片
  • Remove watermark banners: 从图片底部裁剪水印横幅
  • Watermark mask generation: 使用YOLO检测和OWLv2生成水印掩码
  • Remove watermarks: 使用LAMA模型去除水印
  • Ollama VLM Screening: 使用VLM对图片进行分类筛选
  • Final YOLO cls conversion: 将数据集转换为YOLO分类格式

设计过程

  1. 网络抓取: 使用Bing图片作为来源
  2. 识别重复: 使用MD5哈希比对
  3. 去除水印横幅: 通过灰度转换和暗度值检测
  4. 水印检测: 优化CUDA设备性能并实现批量处理
  5. 水印去除: 使用LAMA模型进行大规模数据集处理
  6. VLM筛选: 使用Ollama本地服务器进行最终筛选
  7. YOLO转换: 将数据集转换为YOLO分类格式

改进方向

  • 水印处理: 训练自定义分割模型以提高水印检测和去除效果
  • 数据规模: 扩展网络抓取查询,使用同义词策略增加图片多样性
  • 优化: 提升处理流程的运行效率
搜集汇总
数据集介绍
main_image_url
构建方式
在构建BingRecycle40k数据集的过程中,研究团队采用了多阶段精细处理流程。初始阶段通过iCrawler机器人从Bing图像中爬取了约75,000张原始图片。随后运用MD5哈希值比对技术剔除了15,000张重复图像,并基于视觉质量评估移除了20,000张低质量样本。针对网络爬取数据常见的缺陷,团队开发了系列自动化处理工具:包括基于灰度滤波的横幅水印裁剪算法、结合YOLO检测与OWLv2筛选的水印掩模生成系统、采用LAMA模型的批量修复技术,以及基于qwen2.5vl视觉语言模型的最终质量筛查。整个流程特别设计了测试集专属的样本回收机制,将存在瑕疵但尚可用的图像单独归类。
特点
该数据集作为专注于可回收物品识别的视觉资源,其核心价值体现在严格的质量控制体系。不同于常规网络爬取数据集,它通过五层过滤机制确保了样本纯净度:哈希去重、自动水印处理、背景复杂度评估、文本内容清除以及非真实图像剔除。数据集特别优化了YOLO分类任务的适配性,提供预设的train/val/test划分方案。值得注意的是,测试集中保留了经过VLM验证的'边缘样本',这为模型鲁棒性评估提供了独特挑战。技术文档中详细披露了每类缺陷的处理数量和质量标准,为研究者提供了透明的数据溯源依据。
使用方法
为便于研究者快速开展实验,数据集提供两种获取方式:直接下载预处理的ZIP压缩包或通过GitHub工具链自定义数据划分。推荐使用wget命令分别获取主数据集文件(BingRecycle40k_rev1.zip)和类别标签文件(classes.txt)。对于需要定制数据划分的用户,作者提供的YOLO格式转换工具库支持自动化处理流程,该工具能解析前期处理阶段生成的JSON元数据,智能分配训练集与验证集样本。所有图像均已预处理为统一尺寸,并附带完整的类别标注信息,可直接用于YOLO分类模型的训练与评估。技术文档中特别强调了测试集的特殊构成,建议用户在模型评估阶段予以特别关注。
背景与挑战
背景概述
BingRecycle40k数据集是近年来针对垃圾分类与回收领域构建的视觉识别资源,由研究者lreal通过Bing图像搜索引擎系统性地爬取并清洗而成。该数据集最初包含75,000张网络图像,经过MD5哈希去重和视觉语言模型筛选后,最终保留40,000张高质量样本。其构建过程体现了计算机视觉领域对真实场景数据的需求,特别是在环境科学与可持续技术交叉领域,为基于YOLO架构的垃圾分类算法提供了重要基准。数据集采用模块化处理流程,涵盖网络爬取、水印消除、视觉筛选等创新方法,反映了当前视觉数据工程的前沿实践。
当前挑战
该数据集面临的核心挑战主要体现在两方面:领域问题层面,垃圾分类任务需克服复杂背景干扰、多类别视觉相似性以及非标准拍摄角度等识别难题;构建过程层面,网络爬取数据存在20%重复率与26.7%低质量样本淘汰率,水印检测与消除算法对线条符号类标记的识别准确率不足,视觉语言模型筛选阶段存在30小时级计算耗时。此外,跨搜索引擎的图像语义一致性保障、合成水印数据的模型泛化能力提升,以及处理流程的并行化优化,都是亟待突破的技术瓶颈。
常用场景
经典使用场景
在计算机视觉领域,BingRecycle40k数据集为垃圾分类与回收识别任务提供了高质量的图像资源。该数据集经过严格筛选与清洗,适用于训练基于YOLO架构的分类模型,帮助研究人员构建精准的废弃物识别系统。其独特的处理流程确保了图像质量,为模型训练提供了可靠的数据基础。
解决学术问题
该数据集有效解决了网络爬取图像中常见的质量问题,包括水印去除、重复图像检测以及非真实感图像过滤等关键问题。通过多阶段处理流程,为学术界提供了研究图像数据清洗与增强技术的标准化案例,推动了计算机视觉领域数据预处理方法的发展。
衍生相关工作
围绕该数据集已衍生出多项创新工作,包括基于LAMA模型的图像修复技术、利用OWLv2进行快速筛选的方法,以及结合Ollama的视觉语言模型筛选系统。这些工作共同构成了一个完整的数据处理框架,为后续类似数据集的建设提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作