DAVIS-Ag

arXiv2024-03-16 更新2024-07-30 收录

下载链接：

https://github.com/ctyeong/DAVIS-Ag

下载链接

链接失效反馈

官方服务：

资源简介：

用于农业机器人领域主动视觉研究的合成植物数据集，包含502K RGB图像，来自632个合成果园中的30K密集采样空间位置。数据集考虑了草莓、番茄和葡萄三种植物环境，并提供了有用的标签，如边界框、实例分割掩码和视角可达性指针。

A synthetic plant dataset for active vision research in agricultural robotics, consisting of 502K RGB images captured from 30K densely sampled spatial locations across 632 synthetic orchards. The dataset covers three plant environments: strawberry, tomato, and grape, and provides valuable annotations including bounding boxes, instance segmentation masks, and viewpoint accessibility pointers.

创建时间：

2023-03-10

原始信息汇总

"DAVIS-Ag" 数据集概述

数据集简介

"DAVIS-Ag" 数据集是一个用于农业机器人主动视觉研究的综合植物数据集。该数据集包含超过502,000张RGB图像，来自632个真实合成的植物环境，适用于研究实例级别的水果检测和覆盖。数据集提供了像素级的分割、水果的边界框以及相机的全局姿态，支持基于视觉的导航和定位研究。

数据集下载

数据集分为多个部分，包括单个和多个植物场景，具体如下：

单个草莓：PART 1 (7GB) | PART 2 (7GB) | SPLITS
单个番茄：PART 1 (7.5GB) | PART 2 (7.5GB) | PART 3 (7.5GB) | PART 4 (7GB) | SPLITS
单个葡萄藤：PART 1 (10GB) | PART 2 (10GB) | PART 3 (10GB) | PART 4 (10GB) | SPLITS
多个草莓：PART 1 (9GB) | PART 2 (9GB) | PART 3 (9GB) | PART 4 (9GB) | SPLITS
多个番茄：PART 1 (15GB) | PART 2 (15GB) | PART 3 (15GB) | PART 4 (15GB) | PART 5 (15GB) | PART 6 (15GB) | PART 7 (16GB) | PART 8 (7GB) | SPLITS
多个葡萄藤：PART 1 (10GB) | PART 2 (10GB) | PART 3 (10GB) | PART 4 (10GB) | SPLITS

目录结构

数据集的目录结构如下：

"Scenario-Plant_Type" └── "Scene_#" ├── "annotations.json"
└── "images" ├── "Image_#.jpeg" └── "Image_#_seg.png"

例如，在 Single-Tomato 目录下，结构如下：

Single-Tomato ├── 000 ├── 001 ├── 002 ├── annotations.json └── images ├── 0001.jpeg ├── 0001_seg.png ├── 0002.jpeg ├── 0002_seg.png ... ├── 0347.jpeg └── 0347_seg.png ... ├── 135 └── 136

每个 *.jpeg 文件是分辨率为 1280x720 的RGB图像，*_seg.png 文件是相应的水果像素级分割图像。annotations.json 文件包含其他有用的标签信息。

场景配置

数据集模拟了三种植物类型：草莓、番茄和葡萄藤，每种类型有两种不同的场景大小：

单个植物 (SP)：场景中心放置一株植物，相机从任何位置拍摄时都瞄准植物；模拟了三种不同高度的视角；考虑了六种动作：前进、后退、左移、右移、上升和下降。
多个植物 (MP)：每个番茄或葡萄藤场景中有三株植物，草莓场景中有五株植物；模拟了两种高度的视角；可执行八种动作：前进、后退、左移、右移、上升、下降、顺时针旋转和逆时针旋转。

总计提供了502,542张RGB图像和相关标签。具体统计如下：

SP	总计	草莓	番茄	葡萄藤
场景数量	398	86	130	182
RGB图像数量	133,086	24,510	45,240	63,336

MP	总计	草莓	番茄	葡萄藤
场景数量	234	77	113	44
RGB图像数量	369,456	86,856	203,400	79,200

空间采样方法

为了模拟移动代理，从每个场景的密集空间分布中采样了多个视角。例如，每个 Single-Strawberry 场景在三维空间中预选了285个视角（彩色圆圈），网格宽度为3米，长度为3米，模拟了三个高度级别：0.50米、0.75米和1.00米。这些视角是通过模拟的25厘米步长确定的。

此外，每个位置通过添加白高斯噪声 $epsilon sim N(0, 2.5cm)$ 进行扰动，以考虑机器人可能在户外环境中的“滑动”。

表型随机变化

每个场景通过随机参数生成，以展示与其他场景不同的表型特征。具体来说，水果、叶子和树干的初始大小参数分别从 $U(0.8alpha, 1.2alpha)$ 中随机采样，其中 $alpha$ 是默认设置。

标签和文件格式

每个RGB图像 (*.jpeg) 提供了以下标签：

水果的像素级实例分割 (*._seg.png)
水果的边界框
视角的全局姿态
动作指针

其中2-4项在 annotations.json 文件中提供。特别地，DAVIS-Ag 提供了1和2项，并带有场景中水果的唯一“实例”ID。例如，*_seg.png 中的每个像素可以表示场景中水果的唯一实例ID，非水果像素设置为255。

Annotations.json

annotations.json 文件设计用于呈现边界框和其他标签信息，格式如下：

{ "image_name":{ "bounding_boxes":[ [xmin ymin width height instance_id 0], [xmin ymin width height instance_id 0], ..., ], "pose": [x, y, z, yaw, pitch], // 动作指针 "forward":"another_image_name", "backward":"another_image_name", "left":"another_image_name", "right":"another_image_name", "up":"another_image_name", "down":"another_image_name", "rotate_ccw":"another_image_name", "rotate_cw":"another_image_name" }, "next_image_name":{ ... }

边界框中的第四项 (instance_id) 可用于跟踪特定水果实例，与分割中的实例ID匹配。pose 表示用于拍摄图像的相机在全局坐标系中的姿态。每个可能的动作都与另一个图像文件链接，以模拟嵌入式代理的动作。

生成管道

DAVIS-Ag 数据集的生成利用了两个主要软件组件：

Helios
AgML

这两个软件均由加州大学戴维斯分校的研究小组积极开发。Helios用于合成带有注释的真实视觉植物数据，而AgML作为Python脚本的接口，用于自由访问这些插件以满足DAVIS-Ag的特定目的。

使用案例示例

将很快更新，提供用于论文中实验部分的Python代码。

补充视频

观看视频

联系方式

如有任何问题，请随时发送电子邮件至：taechoi@ucdavis.edu。

搜集汇总

数据集介绍

构建方式

在农业机器人视觉感知研究中，DAVIS-Ag数据集通过开源框架AgML与三维植物模拟器Helios构建，模拟了草莓、番茄和葡萄三种作物的单株与多株种植场景。该数据集在632个虚拟果园中，从3万个密集空间采样点生成了超过50.2万张高清RGB图像，每个采样点均考虑了多种相机高度与角度配置。为模拟真实农田环境，相机位置引入了高斯噪声以模拟地面滑动，同时为每张图像标注了果实边界框、实例分割掩码，并建立了可达视点间的动作指针，以支持主动视觉中的视点序列规划。

特点

DAVIS-Ag作为首个专注于农业领域主动视觉研究的公开数据集，其突出特点在于提供了高度结构化的视点可达性关联，覆盖了前进、后退、旋转及垂直移动等多种动作，模拟了农业开放环境中机器人的自由运动。数据集包含单株与多株两种尺度场景，涵盖了不同表型参数的植物形态，增强了环境的多样性。此外，所有图像均配有精确的果实检测标注与相机位姿信息，支持从目标检测到视点规划的多任务研究，其规模远超现有非农业主动视觉数据集，为算法开发与基准测试提供了丰富资源。

使用方法

研究者可利用DAVIS-Ag数据集开发与评估农业环境下的主动视觉算法，特别是在目标可见性最大化等任务中。数据集提供的视点指针允许构建基于图结构的运动模拟，智能体可通过动作序列在关联视点间导航，以优化果实检测或分割性能。标注数据可用于训练目标检测、实例分割模型，并可通过迁移学习提升真实场景下的泛化能力。此外，相机位姿信息支持视觉定位与导航研究，而多尺度场景设计便于算法在不同复杂度环境中的性能验证。

背景与挑战

背景概述

在精准农业领域，机器人视觉感知是实现植物成熟度与健康状态识别的关键技术。然而，野外环境中果实、茎叶等物体因相互遮挡而仅部分可见，导致病害果实误判与产量估计失准。为应对这一挑战，主动视觉方法应运而生，通过规划机器人运动序列以获取更具信息量的观测视角。2024年，由加州大学戴维斯分校及肯尼索州立大学的研究团队联合发布了DAVIS-Ag数据集，旨在推动农业领域域启发的主动视觉研究。该数据集利用开源AgML框架与Helios三维植物模拟器，生成了632个合成果园中30,000个密集采样空间位置的502,000张RGB图像，涵盖草莓、番茄与葡萄三种作物在单株与多株两种尺度下的场景，并提供了果实边界框、实例分割掩码及可到达视角间的动作指针等丰富标注。DAVIS-Ag的创立填补了农业主动视觉研究缺乏公共基准测试平台的空白，为后续算法开发与性能评估提供了标准化数据支持。

当前挑战

DAVIS-Ag数据集致力于解决农业机器人视觉中因复杂植物结构遮挡导致的果实检测与观察完整性难题，其核心挑战在于如何通过主动视角规划最大化目标果实的可见性。具体而言，植物环境中枝叶交错形成的随机遮挡使得单一静态视角难以全面捕捉果实信息，需设计智能运动策略以动态优化观测位置。在数据集构建过程中，研究团队面临多重技术挑战：首先，需在仿真环境中生成高度逼真且形态多样的三维植物模型，以模拟真实农业场景的复杂性；其次，为实现主动视觉的动作序列模拟，必须建立密集空间采样点之间的可达性关联，并引入垂直移动与地形滑移噪声以增强现实性；此外，标注流程需处理海量图像中果实的边界框与实例分割，并滤除无效或过小的检测目标以确保数据质量。这些挑战的克服使得DAVIS-Ag成为首个专注于农业主动视觉的大规模合成数据集，为领域研究奠定了坚实基础。

常用场景

经典使用场景

在农业机器人视觉感知研究中，DAVIS-Ag数据集为领域驱动的主动视觉算法提供了标准化的仿真测试平台。该数据集通过模拟草莓、番茄和葡萄三种作物在单株与多株场景下的密集采样视角，生成了超过50万张高分辨率RGB图像，并标注了果实边界框、实例分割掩码及可到达视点间的动作指针。研究者可利用这些数据训练和评估机器人如何在复杂植株结构中规划视点序列，以最大化目标果实的可见性，从而应对农业环境中普遍存在的遮挡挑战。

衍生相关工作

围绕DAVIS-Ag数据集，已衍生出多项经典研究工作，例如基于强化学习的视点规划方法在目标可见性最大化任务上的基准测试。这些工作借鉴了数据集中视点指针与空间标注的特性，开发了结合水平与垂直移动的混合策略模型。同时，该数据集也启发了对合成至真实迁移学习的深入探索，如果实检测器的预训练与微调框架，为缩小仿真与现实间的视觉差异提供了实证基础，进一步拓展了农业主动视觉的研究边界。

数据集最近研究