DAVIS-Ag
收藏"DAVIS-Ag" 数据集概述
数据集简介
"DAVIS-Ag" 数据集是一个用于农业机器人主动视觉研究的综合植物数据集。该数据集包含超过502,000张RGB图像,来自632个真实合成的植物环境,适用于研究实例级别的水果检测和覆盖。数据集提供了像素级的分割、水果的边界框以及相机的全局姿态,支持基于视觉的导航和定位研究。
数据集下载
数据集分为多个部分,包括单个和多个植物场景,具体如下:
- 单个草莓:PART 1 (7GB) | PART 2 (7GB) | SPLITS
- 单个番茄:PART 1 (7.5GB) | PART 2 (7.5GB) | PART 3 (7.5GB) | PART 4 (7GB) | SPLITS
- 单个葡萄藤:PART 1 (10GB) | PART 2 (10GB) | PART 3 (10GB) | PART 4 (10GB) | SPLITS
- 多个草莓:PART 1 (9GB) | PART 2 (9GB) | PART 3 (9GB) | PART 4 (9GB) | SPLITS
- 多个番茄:PART 1 (15GB) | PART 2 (15GB) | PART 3 (15GB) | PART 4 (15GB) | PART 5 (15GB) | PART 6 (15GB) | PART 7 (16GB) | PART 8 (7GB) | SPLITS
- 多个葡萄藤:PART 1 (10GB) | PART 2 (10GB) | PART 3 (10GB) | PART 4 (10GB) | SPLITS
目录结构
数据集的目录结构如下:
"Scenario-Plant_Type"
└── "Scene_#"
├── "annotations.json"
└── "images"
├── "Image_#.jpeg"
└── "Image_#_seg.png"
例如,在 Single-Tomato 目录下,结构如下:
Single-Tomato ├── 000 ├── 001 ├── 002 ├── annotations.json └── images ├── 0001.jpeg ├── 0001_seg.png ├── 0002.jpeg ├── 0002_seg.png ... ├── 0347.jpeg └── 0347_seg.png ... ├── 135 └── 136
每个 *.jpeg 文件是分辨率为 1280x720 的RGB图像,*_seg.png 文件是相应的水果像素级分割图像。annotations.json 文件包含其他有用的标签信息。
场景配置
数据集模拟了三种植物类型:草莓、番茄和葡萄藤,每种类型有两种不同的场景大小:
- 单个植物 (SP):场景中心放置一株植物,相机从任何位置拍摄时都瞄准植物;模拟了三种不同高度的视角;考虑了六种动作:前进、后退、左移、右移、上升和下降。
- 多个植物 (MP):每个番茄或葡萄藤场景中有三株植物,草莓场景中有五株植物;模拟了两种高度的视角;可执行八种动作:前进、后退、左移、右移、上升、下降、顺时针旋转和逆时针旋转。
总计提供了502,542张RGB图像和相关标签。具体统计如下:
| SP | 总计 | 草莓 | 番茄 | 葡萄藤 |
|---|---|---|---|---|
| 场景数量 | 398 | 86 | 130 | 182 |
| RGB图像数量 | 133,086 | 24,510 | 45,240 | 63,336 |
| MP | 总计 | 草莓 | 番茄 | 葡萄藤 |
|---|---|---|---|---|
| 场景数量 | 234 | 77 | 113 | 44 |
| RGB图像数量 | 369,456 | 86,856 | 203,400 | 79,200 |
空间采样方法
为了模拟移动代理,从每个场景的密集空间分布中采样了多个视角。例如,每个 Single-Strawberry 场景在三维空间中预选了285个视角(彩色圆圈),网格宽度为3米,长度为3米,模拟了三个高度级别:0.50米、0.75米和1.00米。这些视角是通过模拟的25厘米步长确定的。
此外,每个位置通过添加白高斯噪声 $epsilon sim N(0, 2.5cm)$ 进行扰动,以考虑机器人可能在户外环境中的“滑动”。
表型随机变化
每个场景通过随机参数生成,以展示与其他场景不同的表型特征。具体来说,水果、叶子和树干的初始大小参数分别从 $U(0.8alpha, 1.2alpha)$ 中随机采样,其中 $alpha$ 是默认设置。
标签和文件格式
每个RGB图像 (*.jpeg) 提供了以下标签:
- 水果的像素级实例分割 (
*._seg.png) - 水果的边界框
- 视角的全局姿态
- 动作指针
其中2-4项在 annotations.json 文件中提供。特别地,DAVIS-Ag 提供了1和2项,并带有场景中水果的唯一“实例”ID。例如,*_seg.png 中的每个像素可以表示场景中水果的唯一实例ID,非水果像素设置为255。
Annotations.json
annotations.json 文件设计用于呈现边界框和其他标签信息,格式如下:
{ "image_name":{ "bounding_boxes":[ [xmin ymin width height instance_id 0], [xmin ymin width height instance_id 0], ..., ], "pose": [x, y, z, yaw, pitch], // 动作指针 "forward":"another_image_name", "backward":"another_image_name", "left":"another_image_name", "right":"another_image_name", "up":"another_image_name", "down":"another_image_name", "rotate_ccw":"another_image_name", "rotate_cw":"another_image_name" }, "next_image_name":{ ... }
边界框中的第四项 (instance_id) 可用于跟踪特定水果实例,与分割中的实例ID匹配。pose 表示用于拍摄图像的相机在全局坐标系中的姿态。每个可能的动作都与另一个图像文件链接,以模拟嵌入式代理的动作。
生成管道
DAVIS-Ag 数据集的生成利用了两个主要软件组件:
这两个软件均由加州大学戴维斯分校的研究小组积极开发。Helios用于合成带有注释的真实视觉植物数据,而AgML作为Python脚本的接口,用于自由访问这些插件以满足DAVIS-Ag的特定目的。
使用案例示例
将很快更新,提供用于论文中实验部分的Python代码。
补充视频
联系方式
如有任何问题,请随时发送电子邮件至:taechoi@ucdavis.edu。

- 1DAVIS-Ag: A Synthetic Plant Dataset for Prototyping Domain-Inspired Active Vision in Agricultural Robots · 2024年



