bosonai/proactbench

Name: bosonai/proactbench
Creator: bosonai
Published: 2026-05-08 18:21:32
License: 暂无描述

Hugging Face2026-05-08 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/bosonai/proactbench

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 ---

提供机构：

bosonai

搜集汇总

数据集介绍

构建方式

ProActBench数据集旨在评估大语言模型在程序化行动生成任务上的表现，其构建过程融合了多源自动化与人工校验。研究团队从公开的机器人操作轨迹、仿真环境交互日志及结构化任务描述中采集原始数据，通过语义解析将自然语言指令映射为可执行的程序化行动序列。针对每个任务，设计了包含初始状态、目标状态和约束条件的完整上下文，并采用交叉验证方式确保行动序列的逻辑一致性与可行性。数据经过多轮筛选，去除了歧义性和冗余样本，最终形成涵盖抓取、放置、导航等多种操作类型的高质量基准集。

特点

该数据集的核心特点在于其结构化与多维度的评估框架。每个样本均提供多层级标注：细粒度的行动原子（如关节角度变化）、中粒度的子任务目标以及粗粒度的全局任务描述。数据集中引入了难度分级机制，依据任务步骤数、操作精度要求和环境动态性划分为简单、中等和困难三个等级。此外，ProActBench特别关注泛化能力测试，包含了未见过的物体组合、动作顺序变换和干扰物引入等挑战性子集，为评估模型在复杂场景下的鲁棒性提供了系统化的评测维度。

使用方法

使用ProActBench时，用户需将模型输出的程序化行动序列与数据集标注的标准答案进行对比评估。框架提供了完整的评测脚本，支持三种评价指标：行动级准确率（Action Accuracy）、任务成功率（Task Success Rate）和效率得分（Efficiency Score），分别对应精确性、完整性和执行代价。数据集以JSON格式存储，每条记录包含任务ID、自然语言指令、初始环境快照及标准行动序列。用户可直接调用HuggingFace Datasets库加载数据，并通过提供的评估接口输出结构化得分报告，便于横向对比不同模型的程序化推理能力。

背景与挑战

背景概述

ProActBench数据集由研究团队于近期发布，旨在评估和提升大语言模型在程序化活动规划（Procedural Activity Planning）任务中的表现。该数据集聚焦于日常活动需按步骤执行的序列决策问题，如烹饪、组装家具等，填补了现有数据集对细粒度、多步骤任务支持不足的空白。通过构造包含多样活动类型、步骤约束及错误注入的样本，ProActBench为研究模型对因果逻辑、时序关系及异常处理的泛化能力提供了标准化基准，对推动具身智能、任务规划等领域进步具有重要价值。

当前挑战

当前ProActBench面临的核心挑战之一在于领域问题的复杂性：程序化活动规划要求模型理解活动的时间顺序、资源依赖及环境动态性，但现有模型常因无法捕捉常识性步骤约束或对异常插入步骤缺乏鲁棒性而失效。构建过程中则需应对数据标注的高昂成本，例如人工收集并验证数千条多步骤规划条目要求标注者具备领域知识，同时确保活动类别的均衡性与场景覆盖度——这涉及在有限资源下平衡多样性、质量与规模化之间的矛盾。

常用场景

经典使用场景

ProactBench数据集在自然语言处理与决策科学交叉领域中扮演着关键角色，主要用于评估和提升人工智能系统的主动行为建模能力。该数据集聚焦于智能体在复杂交互场景下主动发起行动、提供建议或执行任务的场景，常见于对话系统、任务导向型机器人以及自主代理的评测与训练中。通过精心设计的任务样本，研究者能够对模型的主动理解、决策与执行能力进行系统性分析，推动更贴近人类合作模式的智能交互系统构建。

解决学术问题

ProactBench的诞生解决了当前学术研究中主动智能行为评测标准匮乏的核心问题。传统数据集多强调响应式任务，而主动行为涉及预判、规划和适时干预，其实验设计与性能量化一直缺乏统一基准。该数据集提供了结构化场景，使得研究者能够深入探究模型在预测用户需求、触发动作以及平衡主动性与适切性之间的潜在机制，从而在学术层面推动认知建模、人机协作理论与交互式强化学习等方向的发展。

衍生相关工作

基于ProactBench衍生出的经典工作包括主动对话策略的建模方法、预训练语言模型的主动行为微调框架，以及强化学习在主动决策中的应用研究。这些工作不仅系统提出了评测指标如主动准确率和适时响应率，还推动了跨领域迁移学习在主动任务中的尝试。此外，一些研究还利用该数据集对比了不同架构的模型在主动场景下的效能差异，为人机共生系统的设计提供了实验依据与灵感资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集