awesome-flowers
收藏Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/tudelft-mdp/awesome-flowers
下载链接
链接失效反馈官方服务:
资源简介:
Awesome Flowers Dataset 是一个由代尔夫特理工大学机器人学学生创建的开源数据集,专为温室环境下的花卉检测任务设计,旨在支持多学科项目(MDP)的研究与开发。该数据集属于对象检测任务范畴,包含四个预定义类别:红色郁金香(tulip_red)、白色郁金香(tulip_white)、粉色郁金香(tulip_pink)以及干扰物虫子(bug)。数据以图像-标签对的形式组织,每张图像对应一个YOLOv8 PyTorch TXT格式的标签文件,其中边界框坐标采用归一化的浮点数表示。数据集强调协作构建,遵循严格的命名规范(如group30_001.jpg)和标注准则,要求边界框紧密贴合花卉花瓣,并对重度遮挡情况有明确的处理规则。数据集在构建初期统一存放于images/和labels/目录下,最终由维护者进行训练/验证/测试集的划分。
创建时间:
2026-05-19
原始信息汇总
数据集概述:Awesome Flowers
基本信息
- 数据集名称:Awesome Flowers
- 许可证:CC-BY-4.0
- 任务类型:目标检测(Object Detection)
- 维护机构:TU Delft 机器人学学生团队
数据集特征
数据格式
- 存储格式:Parquet 文件(
data/all.parquet) - 数据划分:目前仅包含全部数据(split:
all)
特征字段
| 字段名 | 数据类型 | 说明 |
|---|---|---|
image |
image | 图像数据 |
image_id |
string | 图像唯一标识 |
width |
int32 | 图像宽度 |
height |
int32 | 图像高度 |
objects |
sequence | 目标对象序列 |
目标对象字段(objects)
| 子字段 | 数据类型 | 说明 |
|---|---|---|
bbox |
float32序列(长度4) | 边界框坐标(归一化) |
category |
class_label | 目标类别标签 |
area |
float32 | 目标区域面积 |
类别映射
| 类别ID | 类别名称 | 描述 |
|---|---|---|
| 0 | tulip_red |
红色郁金香 |
| 1 | tulip_white |
白色郁金香 |
| 2 | tulip_pink |
粉色郁金香 |
| 3 | bug |
虫子 |
数据收集与标注规则
标注格式
- 标注格式:YOLOv8 PyTorch TXT 格式
- 坐标类型:归一化浮点数(范围 [0, 1])
- 标注粒度:每个图像对应一个独立的
.txt标签文件
标注规范
- 紧密性:边界框应尽可能贴近花瓣,减少框内背景
- 严重遮挡:遮挡超过80%的物体不进行标注
- 标注限制:仅标注明确可识别的实例,不自行添加额外类别
文件命名规则
- 命名格式:
group{id}_{frame_number}.jpg - 索引编号:使用固定宽度(推荐3位数字),如
group30_001.jpg - 图像与标签文件必须严格同名(扩展名不同),如
group30_001.jpg对应group30_001.txt
数据结构
- 标注阶段:所有文件直接上传至
images/和labels/目录 - 划分阶段:由项目维护者统一执行
split.py进行训练/验证/测试集划分
搜集汇总
数据集介绍

构建方式
该数据集由代尔夫特理工大学机器人学专业学生协作构建,旨在服务于温室花卉检测任务。数据集的构建遵循严格的闭环工作流程:贡献者首先通过本地标注工具(如Roboflow或Label Studio)对采集的图像进行注释,生成YOLO格式的标签文件,随后将原始图片与TXT标签文件分别上传至共享的`images/`和`labels/`目录中。为确保文件命名不冲突,所有文件均采用`group{id}_{三位数帧号}.jpg`的格式,并保证每张图片与同名标签文件一一对应。最终,由项目维护者运行`split.py`脚本将完整数据集划分为训练、验证和测试集,从而形成可直接用于模型训练的标准化数据集。
特点
该数据集以花卉目标检测为核心,共包含四个细粒度类别:红色郁金香(tulip_red)、白色郁金香(tulip_white)、粉色郁金香(tulip_pink)以及虫害(bug),覆盖了温室中常见的目标类型。数据采集过程中,通过混合放置郁金香、虫害和AprilTag来增强空间位置多样性,并控制帧率以避免重复图像。标注规则要求标注框紧密贴合花瓣轮廓,对于遮挡超过80%的花朵则不进行标注,从而保证标签的准确性和一致性。此外,数据集以Hugging Face Datasets平台作为单一协作仓库,利用Parquet格式存储结构化数据,支持高效的加载与迭代。
使用方法
该数据集的使用极为便捷,用户可通过Hugging Face Datasets库直接加载。推荐的快速启动方式为克隆仓库:`git clone https://huggingface.co/datasets/jihyopark/awesome-flowers`,随后基于Python环境调用`datasets.load_dataset`函数即可获取包含图像、边界框、类别标签及面积的丰富特征。由于数据已预先按照YOLO格式组织,用户可直接将其输入YOLOv8等目标检测模型进行训练,无需额外格式转换。维护者通过`build_viewer_parquet.py`脚本定期重建Parquet文件,确保数据集视图与最新提交保持同步,便于用户持续获取更新后的高质量数据。
背景与挑战
背景概述
在精准农业与智能温室管理的交叉领域,基于视觉的植物表型分析与虫害检测已成为推动作物产量提升的关键技术。由代尔夫特理工大学(TU Delft)机器人学专业学生开发的“awesome-flowers”数据集,于近年创建,旨在解决温室环境下花卉的自动检测与识别问题。该数据集聚焦于郁金香(红色、白色、粉色)及虫害(bug)四类目标,以YOLO格式的边界框标注为核心,为温室花卉检测模型的训练提供了标准化、可复现的数据基础。其研究核心在于构建一个协作式、质量可控的开放数据集,以支持多目标检测算法在真实农业场景中的部署与评估。作为面向温室花卉的专用目标检测数据集,其系统化的协作流程设计(如命名规则、标注规范与版本管理)为同类农业数据集的构建树立了实践范例。
当前挑战
所解决的领域问题主要源于温室环境中花卉检测的固有挑战:目标密集、高度遮挡、类间相似性(如不同颜色郁金香)以及光照与背景多变,这些因素导致传统模型泛化能力不足。在数据集构建过程中,挑战同样显著,包括:1)需制定严格的命名与配对规则(如零填充索引与一一对应的图像-标签文件),以避免共享仓库中的文件名冲突;2)需在重度遮挡(如>80%)下明确标注边界(视为背景而非噪声),同时保持框的紧密性以最小化背景干扰;3)需协调多贡献者(如不同学生)的标注一致性,通过单一源引用(data.yaml)确保类ID与名称的精确匹配,从而避免因标注歧义导致的数据污染与模型训练失败。
常用场景
经典使用场景
在温室花卉与农业智能感知领域,精确检测花朵与害虫是自动化管理的关键环节。awesome-flowers数据集专为温室内郁金香花朵与病虫害检测而构建,其经典使用场景聚焦于训练基于YOLOv8的目标检测模型,实现对红色、白色、粉色郁金香及害虫的精准定位与分类。该数据集通过规范化命名规则、严格标注流程和统一格式输出,为学术研究提供了一个标准化、高质量的训练资源,特别适合于花卉密集、遮挡严重和光照多变的真实温室环境,推动了精细农业中计算机视觉技术的落地应用。
解决学术问题
该数据集的核心价值在于解决了温室复杂场景下多类别花卉与害虫同时检测的学术难题。传统数据集往往忽略花朵间的密集重叠和害虫目标小、形态多变的特点,导致模型泛化能力不足。awesome-flowers通过精细化标注规则(如紧贴花瓣边界、遮挡超80%不标注)和类别平衡设计,为研究小目标检测、密集场景下的实例分割以及跨类别识别提供了可靠基准。其发布促进了农作物表型分析与病虫害早期预警方法的迭代,有力支撑了智能农业中自动化监控与决策系统的学术探索。
衍生相关工作
围绕awesome-flowers数据集,衍生工作已覆盖数据增强策略优化、轻量级模型剪枝以及跨模态知识蒸馏等方向。部分研究探索了结合Gaussian YOLO与注意力机制以提升密集花朵的检测鲁棒性,另有工作引入半监督学习框架利用未标注的温室影像扩展类别覆盖面。在模型部署层面,衍生工作对比了YOLOv8n与YOLOv8x在Jetson边缘设备上的推理效率,提出了针对性的通道剪枝方案。这些成果共同推动了农业目标检测从通用领域向专用场景的精细适配,并进一步验证了该数据集作为温室场景标准测试床的学术价值。
以上内容由遇见数据集搜集并总结生成



