LongVILBench
收藏LongVILBench 数据集概述
数据集摘要
LongVILBench 是一个用于长时程视觉模仿学习(VIL)的基准测试数据集。包含 150 个操作任务和总共 300 个人类演示视频。每个任务在两种视觉条件下录制:清洁(受控光照/相机/背景)和复杂(可变光照和视角),每个任务产生两个视频。每个样本提供结构化的 JSON 注释,将视觉演示链接到可执行代码,实现对模仿学习模型的稳健评估。
支持任务
- 视觉模仿学习(视频 → 动作计划 → 可执行代码)
- 从演示生成程序
- 具有空间推理的长时程规划
语言
- 所有动作表示为符号代码原语(
pick、place、open、close、getpos)
数据集结构
数据格式
每个任务表示为一个 JSON 文件,包含以下字段:
- id: 样本的唯一标识符
- object_list: 任务中涉及的物体
- level: 难度级别(1、2 或 3)
- action_sequences: 高级动作计划
- class: 任务类别
- positions: 模拟器中物体的坐标(米)
- pre_action_sequences: 可选的先决条件动作
- code: 地面真实可执行程序(与机器人 API 对齐)
- clean: 清洁条件下录制的视频路径
- complex: 复杂条件下录制的视频路径
- task_horizon: 动作序列的长度
任务和难度级别
-
类别: 积木操作、桌面清理、蔬菜分类
-
原子动作:
pick、place、open、close -
物体: 14 个独特物品
-
空间关系: 6 种类型(左、右、前、后、上、内)
-
难度分层:
- 级别 1: 1–4 个动作
- 级别 2: 5–8 个动作
- 级别 3: 9–18 个动作
评估
指标
提供三个互补指标:
- 精确匹配准确率(EMA): 预测序列与地面真实序列完全匹配
- 逐步匹配分数(SMS): 前缀匹配长度 / 地面真实长度
- 最终状态准确率(FSA): 最终模拟状态是否与地面真实匹配
评估脚本
bash python evaluate.py
数据收集过程
数据集通过三阶段流程构建:
- 任务计划生成: 使用 GPT-4o,并进行人工审查
- 模拟验证: 在 PyBullet 中使用 UR5e 机器人进行可行性检查
- 人类演示录制: 每个任务录制两次,一次在清洁条件下,一次在复杂条件下
最终数据集:2,332 个注释动作(平均每个视频 7.8 个)
贡献
与先前基准相比,LongVILBench:
- 覆盖更长的时程(最多 18 步)
- 包含明确的空间关系(6 种类型)
- 提供难度分层(3 个级别)
- 每个任务包含两种视觉条件(清洁和复杂)以测试鲁棒性
许可信息
- 数据集许可证:cc-by-nc-4.0
引用
bibtex @misc{chen2025longhorizonvisualimitationlearning, title = {Long-Horizon Visual Imitation Learning via Plan and Code Reflection}, author = {Quan Chen and Chenrui Shi and Qi Chen and Yuwei Wu and Zhi Gao and Xintong Zhang and Rui Gao and Kun Wu and Yunde Jia}, year = {2025}, eprint = {2509.05368}, archivePrefix= {arXiv}, primaryClass = {cs.RO}, url = {https://arxiv.org/abs/2509.05368} }




