gently-perception-benchmark

Hugging Face2026-02-21 更新2026-02-22 收录

下载链接：

https://huggingface.co/datasets/pskeshu/gently-perception-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

感知代理基准数据集旨在评估3D到2D表示在使用视觉语言模型（Claude）对秀丽隐杆线虫胚胎发育阶段进行分类时的瓶颈问题。数据集包含来自双视角选择性平面照明显微镜（diSPIM）的4个胚胎的769个时间点的3D光片体积数据，每个体积约46 MB，总数据量约35 GB。数据按发育阶段（早期、豆形、逗号形、1.5倍、2倍、蝴蝶结形）进行标注，每个胚胎目录包含由生物学家标注的阶段转换时间点的annotations.json文件。数据集目录结构包括参考图像、体积数据、基准测试结果和脚本。基准测试方法涉及体积加载和投影、感知、指标计算和真实标注映射。数据集适用于胚胎发育阶段分类任务的评估和研究。

创建时间：

2026-02-21

搜集汇总

数据集介绍

构建方式

在发育生物学与计算显微成像的交叉领域，Gently Perception Agent Benchmark 的构建遵循了严谨的实验数据采集与标注流程。该数据集源自对四个秀丽隐杆线虫胚胎的活体光片显微成像，共捕获了769个时间点的三维体积数据。每个胚胎的发育阶段由专业生物学家进行人工标注，精确记录了从早期到预卷曲期共六个关键阶段的转换时间点，并以结构化的JSON文件存储，确保了标注的权威性与可追溯性。数据集的构建整合了原始成像序列、参考图像及标注信息，为评估视觉-语言模型在动态生物过程中的感知能力提供了高质量基准。

特点

该数据集的核心特点在于其专为评估视觉-语言模型在复杂生物图像理解任务中的表现而设计。它提供了高分辨率的双视角选择性平面照明显微体积数据，每个体积约47MB，总规模约35GB，覆盖了胚胎发育的连续动态过程。数据集包含了经过精心筛选的少量参考图像，支持小样本学习与提示工程研究。其标注体系不仅包含阶段分类，还明确了阶段转换的精确时间点，允许进行时序感知分析。此外，数据集结构模块化，附带了完整的基准测试代码与多种提示变体的实验结果，便于复现与扩展研究。

使用方法

使用该数据集时，研究者可通过提供的模块化感知函数接口，将视觉-语言模型集成到基准测试框架中。基准测试工具链允许运行不同的提示变体，例如描述性提示与最小化提示，以评估模型在胚胎阶段分类任务上的准确性。用户需加载三维体积数据，将其转换为模型可处理的投影图像，并调用统一的`perceive`异步函数，该函数接收图像、参考示例及历史上下文，返回结构化的感知输出。配套的脚本支持快速测试与完整评估，并可计算准确率、预期校准误差等指标，从而系统性地分析模型在生物视觉感知任务上的性能与优化方向。

背景与挑战

背景概述

在计算生物学与显微成像领域，实时、精准地解析胚胎发育过程是一项核心研究课题。Gently Perception Agent Benchmark 数据集于2026年由Kesavan、Christensen、Schneider及Shroff等研究人员构建，依托Gently显微平台，旨在评估视觉-语言模型在秀丽隐杆线虫胚胎发育阶段分类任务中的感知能力。该数据集基于双视角选择性平面照明显微镜技术，采集了四个胚胎的769个时间点三维体积数据，涵盖了从早期到pretzel的六个关键发育阶段。通过提供详尽的基准测试框架与标注真值，该数据集为优化视觉-语言模型在生物图像分析中的提示工程与感知代理设计提供了重要实证基础，推动了智能显微成像系统在发育动力学研究中的应用。

当前挑战

该数据集致力于解决胚胎发育阶段自动分类这一领域问题，其核心挑战在于如何使视觉-语言模型准确理解并解析高维度、低信噪比的显微体积图像中细微且连续的形态学变化。具体而言，模型需克服不同发育阶段间过渡的模糊性，以及三维投影到二维视图所导致的信息损失。在构建过程中，挑战主要集中于大规模光片显微数据的标准化采集与高效管理，其单个体积达47MB，总规模约35GB，对存储与处理流程提出了较高要求。同时，由生物学家手动标注的阶段转换时间点需确保高度一致性与生物学准确性，这为建立可靠的真值标准增添了复杂性。

常用场景

经典使用场景

在发育生物学与计算显微成像的交叉领域，Gently Perception Agent Benchmark 数据集为评估视觉-语言模型在胚胎发育阶段分类任务中的感知能力提供了标准化测试平台。该数据集聚焦于秀丽隐杆线虫胚胎，利用光片显微技术捕获的三维体积图像，结合精确的发育阶段标注，支持研究者系统性地探索模型在复杂生物图像理解任务中的表现。其经典使用场景涉及对视觉-语言代理进行提示工程优化，通过对比不同提示策略下的分类准确率，揭示模型感知机制与生物视觉任务之间的适配规律。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于视觉-语言模型在生物图像理解中的提示优化与代理架构设计。研究通过系统的提示消融实验，揭示了描述性提示相对于规定性提示的性能优势，并催生了针对时序显微图像的混合感知方法探索。后续工作进一步拓展了基准测试范围，如开发对比学习模块或集成多胚胎协同推理框架，这些衍生研究持续推动着计算显微技术与人工智能在发育动力学量化分析中的深度融合。

数据集最近研究