Data-Centric-Visual-Development-for-Self-Driving-Labs

Name: Data-Centric-Visual-Development-for-Self-Driving-Labs
Creator: 西北大学
Published: 2025-12-02 02:59:57
License: 暂无描述

arXiv2025-12-02 更新2025-12-03 收录

下载链接：

https://github.com/AndrewLiu666/Data-Centric-Visual-Development-for-Self-Driving-Labs

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了一个用于自驱实验室（SDL）中移液气泡检测的混合数据集，由西北大学团队创建。该数据集通过融合真实采集与虚拟生成的双轨制流程构建，旨在解决气泡样本稀缺导致的类别不平衡问题。数据集内容包含经过质量筛选与标注的移液枪尖图像，涵盖气泡存在与不存在两类，并通过事件触发采集与基于提示的生成技术扩充数据规模，具体数据量未明确披露。其创建过程整合了自动化实时捕捉、置信度引导的人工审核流程，以及基于参考图像与实验室参数引导的合成生成。该数据集主要应用于自驱实验室的视觉质量控制系统，专门针对移液过程中罕见的气泡故障进行检测，以提升实验流程的可靠性与自动化水平。

提供机构：

西北大学

创建时间：

2025-12-02

原始信息汇总

数据集概述

数据集名称

Data-Centric Visual Development for Self-Driving Labs

数据集主题

用于自动驾驶实验室的数据中心视觉开发，具体涉及气泡检测的二分类图像数据集。

数据集内容与结构

数据类别：图像数据分为两类：
- 标签 1 (has_bubble)：包含气泡的图像。
- 标签 0 (no_bubble)：不包含气泡的图像。
数据来源：包含真实数据 (real) 与合成数据 (synth)。
数据组织：原始图像按类别存放于 data/roi/has_bubble 和 data/roi/no_bubble 目录中。
数据划分：通过脚本可将数据集按指定比例（如 0.7, 0.15, 0.15）分层划分为训练集 (train.csv)、验证集 (val.csv) 和测试集 (test.csv)。

数据集获取

下载地址：https://drive.google.com/file/d/1PJ30lIOCOF9ies4koOLjkEx-ocbPL7i0/view?usp=share_link
下载说明：需从提供的链接下载数据集文件。

数据处理与使用

数据准备：使用 prepare_split.py 脚本扫描图像文件夹，过滤有效文件，并进行分层划分。
数据合并：使用 merge_train_csv.py 脚本可合并不同来源（如真实与合成）的训练集CSV文件。
数据子采样：使用 subsample_csv_stratified.py 脚本可从现有CSV中进行分层子采样，精确抽取指定数量的样本。

模型训练与评估

训练任务：使用EfficientNetV2-L模型进行气泡检测的二分类训练。
评估方式：使用训练得到的最佳模型 (best.pt) 在测试集上进行评估，并可启用测试时增强 (--tta)。

搜集汇总

数据集介绍

构建方式

在自驱动实验室的视觉开发领域，数据稀缺尤其是负样本的匮乏长期制约着模型性能。为应对这一挑战，该数据集采用了一种创新的双轨混合构建范式。其实物轨道将视觉感知无缝集成至移液操作流程中，通过事件触发捕获机制，在每次吸液后自动拍摄移液枪头图像，并引入轻量级分类器进行预筛选，结合基于置信度的人机协同审核策略，高效生成高质量的真实标注数据。虚拟轨道则利用以真实图像为参考、提示词引导的生成模型，系统性地合成涵盖不同液体颜色、液位及气泡形态的样本，再经过分类器一致性与人工抽查的双重验证，确保合成数据与下游任务的物理对齐。

特点

该数据集的核心特征在于其精心设计的类别平衡性与高度的任务相关性。它巧妙融合了来自实际实验流程的真实图像与基于物理先验生成的合成数据，有效缓解了气泡检测这类罕见事件中固有的数据不平衡问题。数据集中的图像均经过严格的标准化处理，统一为600×1500像素，并保留了移液枪头检查区域的关键视觉信息。其构建过程强调数据质量而非单纯数量，通过自动化采集与选择性人工验证相结合，确保了标注的可靠性，同时合成数据的引入以极低的边际成本显著提升了失败案例的样本丰度，为训练鲁棒的视觉反馈模型奠定了坚实基础。

使用方法

该数据集为自驱动实验室中的视觉质量控制和罕见事件检测研究提供了标准化的评估基准。使用者可遵循论文提供的标准化数据划分，利用配套的训练脚本，基于主流分类器架构（如EfficientNetV2-L）进行模型训练与验证。研究重点可聚焦于探索不同比例的真实与合成数据混合训练策略对模型性能的影响，以评估合成数据在弥补真实数据稀缺方面的效用。该数据集尤其适用于研究在数据受限场景下，如何通过数据中心的构建方法提升二元分类任务的准确性，其方法论亦可推广至液滴错位、枪头堵塞等其他实验室视觉检查点。

背景与挑战

背景概述

在生物科学自动化领域，自主驾驶实验室（Self-Driving Laboratories，SDLs）的兴起旨在通过闭环系统减少人工干预、提升实验可重复性。然而，其实时视觉反馈机制的实现长期受限于高质量标注数据的稀缺性，尤其在涉及精密操作如移液时，罕见故障样本（如移液枪头内气泡）的获取成为关键瓶颈。2025年，美国西北大学计算机科学与机械工程团队针对此问题，构建了“Data-Centric Visual Development for Self-Driving Labs”数据集，聚焦于移液过程中气泡存在的二分类视觉检测。该数据集通过融合真实采集与虚拟生成的双轨制管道，系统性解决了SDLs中视觉质量控制的数据供给难题，为实验室自动化中罕见事件检测提供了可扩展的数据引擎范例，推动了数据驱动范式在实验科学中的实际应用。

当前挑战

该数据集致力于解决自主驾驶实验室中移液过程视觉质量控制的二分类问题，其核心挑战在于罕见故障样本的极端不平衡性：在规范操作下，气泡出现概率极低，导致正负样本比例严重失衡，传统数据收集方法难以获取足量且多样的故障样本用于模型训练。在构建过程中，研究团队面临三重主要困难：一是数据稀缺性与类别不平衡，正常操作样本占主导，故障样本形成长尾分布；二是视觉特征的微妙性与高变异性，气泡尺寸小、可能被液面遮挡，且其外观受光照、液体颜色、枪头几何与视角等多重因素影响；三是数据采集与标注的吞吐量限制，依赖人工审核的传统方式无法满足大规模模型训练对数据量的需求，标注成本成为规模化应用的主要瓶颈。

常用场景

经典使用场景

在自动化生命科学实验室的背景下，移液操作作为湿实验流程的核心步骤，其精确性直接关系到实验结果的可靠性。该数据集聚焦于移液枪头内气泡检测这一关键视觉质量监控任务，通过融合真实采集与虚拟生成的双轨数据引擎，构建了一个类别平衡、规模可扩展的图像集合。其经典使用场景在于为自驱动实验室的闭环感知系统提供训练数据，使得视觉反馈模型能够准确识别移液过程中罕见但致命的气泡缺陷，从而在无需人工干预的情况下实现实时错误捕获与流程纠正。

衍生相关工作

该数据集的构建方法论衍生并连接了多个研究脉络。在实验室自动化领域，它延续并深化了对集成视觉检查点的探索，将研究焦点从单纯的机械控制扩展至数据供给链。在计算机视觉方面，它与长尾识别、类别不平衡学习以及合成数据生成的前沿工作形成对话，特别是通过参考条件化生成将领域随机化与提示工程相结合，为稀缺事件的视觉表征学习提供了新思路。此外，该工作为透明容器内液体与气泡的检测研究提供了新的基准与数据集，可能启发后续针对液滴错位、枪头堵塞或交叉污染痕迹等其他实验室罕见故障的视觉监控方案，推动数据中心的人工智能在科学发现中扮演更核心的角色。

数据集最近研究