LongVILBench

Hugging Face2025-09-12 更新2025-09-13 收录

下载链接：

https://huggingface.co/datasets/cq838/LongVILBench

下载链接

链接失效反馈

官方服务：

资源简介：

LongVILBench是一个用于长时视觉模仿学习（VIL）的基准数据集，包含150个操作任务和300个人类演示视频。每个任务在两种视觉条件下录制——干净（受控的光照/摄像头/背景）和复杂（可变的光照和视角），每个任务有两个视频。每个样本都提供结构化的JSON注释，将视觉演示与可执行代码相链接，使得可以稳健地评估模仿学习模型。数据集分为块操作、桌面清理、蔬菜分类等类别，具有不同难度级别的任务，并提供了三种互补的评估指标。

创建时间：

2025-09-09

原始信息汇总

LongVILBench 数据集概述

数据集摘要

LongVILBench 是一个用于长时程视觉模仿学习（VIL）的基准测试数据集。包含 150 个操作任务和总共 300 个人类演示视频。每个任务在两种视觉条件下录制：清洁（受控光照/相机/背景）和复杂（可变光照和视角），每个任务产生两个视频。每个样本提供结构化的 JSON 注释，将视觉演示链接到可执行代码，实现对模仿学习模型的稳健评估。

支持任务

视觉模仿学习（视频 → 动作计划 → 可执行代码）
从演示生成程序
具有空间推理的长时程规划

语言

所有动作表示为符号代码原语（pick、place、open、close、getpos）

数据集结构

数据格式

每个任务表示为一个 JSON 文件，包含以下字段：

id: 样本的唯一标识符
object_list: 任务中涉及的物体
level: 难度级别（1、2 或 3）
action_sequences: 高级动作计划
class: 任务类别
positions: 模拟器中物体的坐标（米）
pre_action_sequences: 可选的先决条件动作
code: 地面真实可执行程序（与机器人 API 对齐）
clean: 清洁条件下录制的视频路径
complex: 复杂条件下录制的视频路径
task_horizon: 动作序列的长度

任务和难度级别

类别: 积木操作、桌面清理、蔬菜分类
原子动作: pick、place、open、close
物体: 14 个独特物品
空间关系: 6 种类型（左、右、前、后、上、内）
难度分层:
- 级别 1: 1–4 个动作
- 级别 2: 5–8 个动作
- 级别 3: 9–18 个动作

评估

指标

提供三个互补指标：

精确匹配准确率（EMA）: 预测序列与地面真实序列完全匹配
逐步匹配分数（SMS）: 前缀匹配长度 / 地面真实长度
最终状态准确率（FSA）: 最终模拟状态是否与地面真实匹配

评估脚本

bash python evaluate.py

数据收集过程

数据集通过三阶段流程构建：

任务计划生成: 使用 GPT-4o，并进行人工审查
模拟验证: 在 PyBullet 中使用 UR5e 机器人进行可行性检查
人类演示录制: 每个任务录制两次，一次在清洁条件下，一次在复杂条件下

最终数据集：2,332 个注释动作（平均每个视频 7.8 个）

贡献

与先前基准相比，LongVILBench：

覆盖更长的时程（最多 18 步）
包含明确的空间关系（6 种类型）
提供难度分层（3 个级别）
每个任务包含两种视觉条件（清洁和复杂）以测试鲁棒性

许可信息

数据集许可证：cc-by-nc-4.0

引用

bibtex @misc{chen2025longhorizonvisualimitationlearning, title = {Long-Horizon Visual Imitation Learning via Plan and Code Reflection}, author = {Quan Chen and Chenrui Shi and Qi Chen and Yuwei Wu and Zhi Gao and Xintong Zhang and Rui Gao and Kun Wu and Yunde Jia}, year = {2025}, eprint = {2509.05368}, archivePrefix= {arXiv}, primaryClass = {cs.RO}, url = {https://arxiv.org/abs/2509.05368} }

搜集汇总

数据集介绍

构建方式

在机器人视觉模仿学习领域，LongVILBench数据集通过严谨的三阶段流程构建而成。研究团队首先采用GPT-4o生成任务计划并辅以人工审核，随后在PyBullet仿真环境中使用UR5e机器人进行可行性验证，最终由人类操作员完成演示录制。每个任务均在清洁和复杂两种视觉条件下各录制一次视频，共收集300段高质量演示视频，涵盖2332个标注动作，平均每个视频包含7.8个动作步骤。

特点

该数据集的核心特征体现在多层次的设计考量中。其包含150个长时程操作任务，涵盖积木操作、桌面清理和蔬菜分类三大类别，涉及14种不同物体和6类空间关系。任务按动作步骤数量分为三个难度等级，从1-4步的初级任务到9-18步的高级复杂任务。每个任务均配备结构化JSON标注，将视觉演示与可执行代码相关联，并独特地提供了清洁与复杂两种视觉条件下的对比数据，为模型鲁棒性评估提供了坚实基础。

使用方法

使用该数据集时，研究人员可通过加载提供的JSON文件获取任务元数据，包括物体列表、空间坐标和动作序列等信息。配套视频文件分别存储在清洁和复杂两个目录下，支持模型在不同视觉条件下的性能测试。评估过程采用精确匹配准确率、步骤匹配分数和最终状态准确率三项指标，通过运行官方提供的评估脚本即可生成详细的性能分析报告。数据集专门设计用于长时程视觉模仿学习、演示程序生成和空间推理规划等研究任务。

背景与挑战

背景概述

视觉模仿学习作为机器人领域的关键研究方向，旨在通过观察人类演示视频生成可执行的动作序列。LongVILBench由研究团队于2025年提出，专注于长时序视觉模仿学习任务。该数据集包含150个操作任务和300段演示视频，涵盖积木操作、桌面清理和蔬菜分类等场景，通过结构化JSON注释将视觉演示与可执行代码关联。其创新性体现在对长时序任务（最长18步动作）的系统化建模，并通过清洁与复杂两种视觉条件测试模型的环境适应性，为机器人自主操作提供了重要基准。

当前挑战

长时序视觉模仿学习需解决动作序列生成的时序依赖性和空间关系推理难题。LongVILBench针对动作步骤跨度大（9-18步）、空间关系复杂（6种方位关系）的任务设计，要求模型同时处理视觉感知、动作规划和代码生成。数据集构建过程中面临多模态对齐挑战：需确保人类演示视频与符号化代码指令的精确匹配，并通过仿真环境验证动作可行性。此外，在复杂视觉条件下保持模型鲁棒性需克服光照变化和视角偏移带来的视觉表征学习困难。

常用场景

经典使用场景

在机器人视觉模仿学习领域，LongVILBench通过结构化视频-代码映射机制，为长时程任务规划提供了标准评估框架。该数据集支持模型从人类演示视频中提取动作序列并生成可执行代码，特别适用于多步骤物体操作任务的算法验证，如块状物体重组、桌面清理等复杂场景的序列决策研究。

衍生相关工作

该数据集催生了多项视觉-程序生成融合研究，包括基于双流网络的视频编码架构和空间关系推理模型。相关经典工作如PlanRefineNet和CodeGen-VIL分别针对动作序列优化和代码生成可靠性进行了深入探索，推动了模仿学习与程序合成技术的协同发展。

数据集最近研究