claytonsds/gwhd2021_augmentedset1
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/claytonsds/gwhd2021_augmentedset1
下载链接
链接失效反馈官方服务:
资源简介:
Global Wheat Head Detection (GWHD)数据集是一个大型且多样化的高分辨率RGB标记图像数据集,用于开发和基准测试小麦头检测方法。该数据集包含大量小麦头的图像,适用于对象检测任务,数据集大小在10K到100K之间。
The Global Wheat Head Detection (GWHD) dataset is a large and diverse dataset of high-resolution RGB-labelled images to develop and benchmark wheat head detection methods. It contains a substantial number of wheat head images, suitable for object-detection tasks, with the dataset size ranging between 10K and 100K.
提供机构:
claytonsds
原始信息汇总
数据集概述:claytonsds/gwhd2021_augmentedset1
该数据集是“Global Wheat Head Detection (GWHD) 2021”数据集的增强版本,专为**目标检测(Object Detection)**任务设计。
基本信息
- 数据集地址:
https://hf-mirror.com/datasets/claytonsds/gwhd2021_augmentedset1 - 数据模态:包含**图像(Image)和文本(Text)**类型数据。
- 数据格式:支持
parquet和optimized-parquet格式。 - 数据集大小:10K - 100K 行规模。
- 许可证:cc-by-4.0(知识共享 4.0 署名许可协议)。
- 主要标签:
wheat-head-detection。 - 支持库:
Datasets、Dask、Polars。
数据集结构与内容
子集与划分
- 唯一子集:
default,共 22.6k 行。 - 数据集划分:
- 训练集(train):18.3k 行
- 测试集(test):1.38k 行
- 验证集(val):2.95k 行
数据列说明
image:包含图像数据。imagewidth (px):图像宽度,记录为像素值(例如640)。labels:存储目标检测标注信息,包括边界框坐标和类别标签。标注格式为序列化字符串,每行包含多个检测结果(例如0 0.934082... 0.041992... 0.040039... 0.076171...),其中每个结果依次表示:类别ID、边界框中心x坐标、中心y坐标、宽度、高度(坐标基于相对坐标系统)。
搜集汇总
数据集介绍

构建方式
GWHD2021_augmentedset1数据集基于Global Wheat Head Detection (GWHD)原始数据集构建,通过引入一系列精心设计的图像增强策略,显著扩充了样本规模与多样性。增强管道依托Albumentations库实现,涵盖水平与垂直翻转、仿射变换(包含旋转、缩放、剪切及平移)、随机亮度对比度调整、颜色抖动、运动与高斯模糊、随机阴影、粗粒度丢弃以及JPEG压缩等操作,每种增强均以特定概率触发,最终将所有图像统一缩放至640×640像素分辨率,共计生成超过万张标注图像。
特点
该数据集延续了GWHD原始数据集的高分辨率RGB图像与精准小麦穗边界框标注的核心特性,同时通过数据增强技术引入了丰富的视觉变化。增强操作模拟了田间拍摄中可能出现的不同光照条件、视角偏移、运动模糊及遮挡等真实场景,显著提升了样本的域内多样性。随机丢弃与压缩操作的加入增强了模型对噪声与低质量输入的鲁棒性,使其更适合训练面向实际农业环境的高泛化能力目标检测模型。
使用方法
该数据集可直接用于训练基于深度学习的小麦穗检测模型,支持标准目标检测框架如YOLO、Faster R-CNN等。使用时需将图像与对应的标注文件(通常为COCO或Pascal VOC格式)进行配对加载,并可按常规比例划分训练集与验证集。由于图像已统一缩放至640×640,无需额外预处理。建议在训练过程中结合原始GWHD数据一起使用,以平衡增强样本与真实样本的分布,从而获得更优的检测性能。
背景与挑战
背景概述
全球小麦穗检测数据集(Global Wheat Head Detection, GWHD)于2020年由Etienne David等研究人员发布,旨在解决农业领域中基于高分辨率RGB图像的小麦穗自动检测问题。该数据集由多机构协作构建,涵盖了来自不同地理区域、生长阶段与光照条件下的多样化小麦穗图像,为开发与评估小麦穗检测算法提供了大规模、高标注质量的基准资源。其核心研究问题在于推动计算机视觉技术在精准农业中的应用,通过提供统一的数据平台,促进小麦穗计数与表型分析的自动化进程。自发布以来,该数据集已成为该领域的旗舰性资源,显著推动了相关算法在复杂农田环境下的鲁棒性与泛化能力研究,并对智慧农业与作物表型组学的发展起到了关键作用。
当前挑战
该数据集主要面临的挑战包括:首先,领域问题层面,小麦穗在田间环境中存在严重遮挡、重叠与形态变异,且光照条件与背景纹理复杂多变,这使得基于通用目标检测模型难以达到理想的精度与召回率,亟需针对农业场景设计的专用检测网络。其次,构建过程中,人工标注大规模图像中的小麦穗需要专业农学知识,不同标注者之间的一致性难以保证,且高分辨率图像的存储与处理对计算资源提出了较高要求。此外,数据增广策略虽有助于提升模型泛化性,但不当的增广可能引入人工噪声或破坏小麦穗的真实形态特征,需在增广强度与生物真实性之间谨慎平衡。
常用场景
经典使用场景
全球麦穗检测(Global Wheat Head Detection, GWHD)数据集是农业计算机视觉领域中,用于小麦麦穗目标检测任务的标准基准数据集。其经典使用场景聚焦于训练和评估深度学习模型,以在高分辨率RGB图像中精准定位和计数小麦麦穗。研究人员常利用该数据集构建基于卷积神经网络(CNN)或Transformer架构的检测器,如YOLO、Faster R-CNN、DETR等,推动麦穗检测技术在复杂田间环境下的鲁棒性提升。本增强版本(gwhd2021_augmentedset1)通过应用丰富的图像增强技术(包括水平翻转、仿射变换、色彩抖动、模糊、阴影模拟等),进一步扩展了数据多样性,有助于模型应对光照变化、遮挡、尺度差异等现实挑战,从而加速农业表型分析中自动化麦穗计数与产量预测的算法迭代。
解决学术问题
该数据集系统性地解决了小麦麦穗表型分析中因品种、生长环境、光照和角度差异所导致的目标检测泛化难题。传统方法依赖人工计数,耗时且易出错,而GWHD数据集通过提供来自全球多个地点的多样化标注图像,使研究者能够训练出跨区域适应的深度学习模型,显著提升了麦穗检测的准确率与召回率。此外,该数据集促进了无监督域适应、少样本学习及对抗性训练等前沿技术在农业场景中的应用探索,为作物表型高通量分析奠定了数据基础。其学术意义在于,通过开放共享大规模精细标注数据,加速了精准农业领域中计算机视觉方法的标准化评估,推动了从实验室到田间应用的转化研究。
衍生相关工作
GWHD数据集催生了一系列衍生研究工作,包括全球小麦检测挑战赛(Global Wheat Challenge),该竞赛吸引了众多团队在统一基准上竞争,催生了如基于注意力机制的尺度自适应检测网络、混合域自适应策略以及轻量化移动端模型等创新方案。此外,后续工作如WheatNet和Deformable DETR-Wheat直接以该数据集为核心进行定制化架构设计。研究者还基于GWHD开发了跨作物迁移学习框架,验证了麦穗检测知识向水稻、大麦等相近作物的可迁移性。该数据集也为合成数据生成与领域随机化方法提供了验证场景,推动了农业图像数据增强理论的完善。这些衍生工作共同构建了从数据到算法、从实验室到田间的完整知识循环。
以上内容由遇见数据集搜集并总结生成



