Eval-Actions Benchmark

github2026-01-27 更新2026-01-28 收录

下载链接：

https://github.com/LogSSim/TERM-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

一个支持可信度分析的数据集，与现有仅限于成功人类演示的数据集不同，它集成了VA和VLA策略执行轨迹以及人类遥操作数据，明确包括失败场景。

A dataset for trustworthiness analysis. Unlike existing datasets that are limited to successful human demonstrations, this dataset integrates VA and VLA policy execution trajectories as well as human teleoperation data, and explicitly includes failure scenarios.

创建时间：

2026-01-25

原始信息汇总

TERM-Bench 数据集概述

数据集基本信息

数据集名称： Eval-Actions Benchmark
核心目标：为机器人操作的可信评估提供支持，弥补当前评估方法（主要依赖二元成功率）的不足。
关键特性：与仅包含成功人类演示的现有数据集不同，本数据集集成了视觉-动作（VA）和视觉-语言-动作（VLA）策略执行轨迹以及人类遥操作数据，并明确包含了失败场景。

数据集构成与监督信号

数据集围绕三个核心监督信号构建：

专家评分
基于排名的偏好引导
思维链推理

数据获取与处理

获取方式：可自行收集数据或下载本团队提供的Eval-Actions基准数据集（下载链接即将公布）。
处理流程：
1. 数据分割：使用脚本将原始数据分割为训练集和验证集。
2. 生成训练JSON：运行脚本生成用于训练的JSON文件（默认处理训练集分割）。
3. 生成验证JSON：通过修改脚本配置，生成用于验证的JSON文件。

关联方法

数据集是所提出的AutoEval架构的一部分，该架构包含两个分支：

AutoEval-S：利用时空聚合进行语义评估，并通过辅助的运动学校准信号来优化运动平滑度。
AutoEval-P：结合组相对策略优化范式以增强逻辑推理能力，实现鲁棒的行为源判别（准确率达99.6%）。

使用目的

该数据集旨在支持对机器人操作行为的可信度分析，特别是在以下关键维度：

来源真实性：区分真实的策略行为与人类遥操作。
执行质量：评估平滑度、安全性等指标。

搜集汇总

数据集介绍

构建方式

在机器人操作领域，随着视觉-动作与视觉-语言-动作模型的快速发展，对行为评估的可靠性提出了更高要求。Eval-Actions基准数据集的构建旨在填补传统评估方法的空白，其核心在于整合多元数据源以支持可信度分析。该数据集不仅收录了成功的人类遥操作演示，还系统性地纳入了视觉-动作与视觉-语言-动作策略的执行轨迹，并特意包含了失败场景的数据。通过融合专家评分、等级引导偏好以及思维链这三种监督信号，数据集构建了一个多层次、结构化的评估框架，为机器人操作的语义理解和运动质量分析提供了坚实基础。

特点

Eval-Actions基准数据集在机器人操作评估领域展现出显著特点，其设计超越了传统的二元成功率指标，专注于可信评估的多维特性。数据集独特地结合了真实策略行为与人类遥操作数据，并明确涵盖失败案例，从而支持对行为来源真实性与执行质量的深入分析。此外，数据集与AutoEval架构紧密耦合，其中AutoEval-S分支利用时空聚合策略将高频运动细节压缩为复合视觉标记，而AutoEval-P分支则引入群体相对策略优化范式以增强逻辑推理能力。这些特点共同使数据集能够全面评估操作的平滑性、安全性及语义合理性。

使用方法

使用Eval-Actions基准数据集时，需遵循一套系统的数据处理与模型训练流程。首先进行数据准备，将原始数据分割为训练集与验证集，并通过特定脚本生成适用于监督微调的JSON格式文件。随后，在训练阶段，利用生成的数据集文件启动监督微调过程，需指定基础模型路径及相应的数据模板。整个流程支持对机器人操作视频序列与运动学提示的联合处理，使用户能够基于专家评分、等级引导或思维链等监督信号，训练模型进行行为评估、来源鉴别或质量排名等任务，从而实现可靠且自动化的操作性能分析。

背景与挑战

背景概述

随着视觉-动作（VA）与视觉-语言-动作（VLA）模型的快速发展，模仿学习显著提升了机器人操作能力，然而评估方法却相对滞后，制约了行为可信评估体系的建立。为应对这一挑战，研究团队于2026年提出了Eval-Actions基准数据集，旨在构建一个支持可信度分析的综合评估框架。该数据集不仅整合了VA与VLA策略执行轨迹及人类遥操作数据，还明确包含了失败场景，突破了传统数据集仅局限于成功演示的局限。其核心研究问题聚焦于如何实现机器人操作的可信评估，特别是针对行为来源真实性与执行质量的量化分析，为机器人学习领域的评估标准化提供了重要支撑。

当前挑战

在机器人操作评估领域，传统方法依赖二元成功率指标，难以全面衡量行为的可信度，例如无法有效区分策略自主行为与人类遥操作，亦缺乏对运动平滑性、安全性等执行质量的细致评估。构建Eval-Actions数据集过程中，研究团队面临多重挑战：需在数据收集中平衡成功与失败案例，确保数据集的代表性与多样性；同时，设计能够同时处理专家评分、排序引导与思维链推理的多任务评估架构，对模型语义理解与逻辑推理能力提出了较高要求。此外，如何将时空聚合策略与群体相对策略优化等技术有效融合，以实现高精度来源判别与质量评估，亦是数据集构建与模型设计中的关键难题。

常用场景

经典使用场景

在机器人操作领域，Eval-Actions Benchmark 的经典使用场景集中于对视觉-动作与视觉-语言-动作模型生成的策略轨迹进行可信度评估。该数据集不仅包含成功的人类遥操作示范，还整合了各类策略执行轨迹及失败案例，为研究者提供了丰富的对比分析基础。通过其支持的三类监督信号——专家评分、排序引导偏好与思维链推理，该数据集能够系统性地评估机器人动作的语义合理性、运动平滑度及逻辑一致性，从而成为验证模仿学习算法鲁棒性的核心工具。

实际应用

在实际应用层面，Eval-Actions Benchmark 可用于机器人系统的开发与部署验证。例如，在工业自动化或服务机器人场景中，利用该数据集能够对机器人抓取、装配等操作进行质量检测与异常诊断。通过集成 AutoEval 架构，开发者可自动化评估策略的流畅性、安全性及与人类示范的相似度，从而优化控制算法、减少调试成本，并增强机器人在动态环境中的可靠表现，为实际落地提供关键性能保障。

衍生相关工作

围绕 Eval-Actions Benchmark，已衍生出多项经典研究工作，其中最具代表性的是 AutoEval 架构。该架构包含 AutoEval-S 与 AutoEval-P 两个分支，分别针对语义评估与推理优化。AutoEval-S 采用时空聚合策略与运动校准信号来提升平滑度分析；AutoEval-P 则引入群体相对策略优化范式，强化逻辑推理能力，实现高达 99.6% 的源判别准确率。这些工作共同推动了机器人评估从静态度量向动态、多维度分析的演进，为后续可信人工智能研究奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集