DESPITE

Hugging Face2026-04-02 更新2026-04-03 收录

下载链接：

https://huggingface.co/datasets/Lennittus/DESPITE

下载链接

链接失效反馈

官方服务：

资源简介：

DESPITE（Deterministic Evaluation of Safe Planning In embodied Task Execution）是一个用于评估大型语言模型（LLMs）在具身安全任务规划中表现的基准数据集。该数据集旨在系统性地评估LLMs在规划任务时的安全性风险。数据集包含来自ALFRED、BDDL、VirtualHome、NormBank和NEISS等多个来源的任务，分为不同的分割和子集，包括标准难度任务（easy）、复杂任务（hard）以及用于快速评估和冗余分析的采样子集。每个任务包含PDDL域文件、问题文件、元数据文件以及用于规划和评估的代码。数据集总规模在10K到100K之间，适用于机器人学、任务规划、安全性和具身AI等领域的研究。

创建时间：

2026-04-01

原始信息汇总

DESPITE 数据集概述

数据集基本信息

数据集名称：DESPITE: Deterministic Evaluation of Safe Planning In embodied Task Execution
主要用途：评估大型语言模型在具身安全任务规划上的性能。
核心主题：机器人学、任务规划、安全性、PDDL、基准测试、具身人工智能。
许可协议：MIT License。
主要语言：英语。
数据规模：10K<n<100K。

数据集内容与结构

数据集旨在系统性地评估大型语言模型在具身任务规划中引入的安全风险。

文件结构

解压后根目录结构如下：

DESPITE/ ├── tasks/{split}/{subset}/{task_id}/ │ ├── code.py # 规划与评估的入口点 │ ├── domain.pddl # PDDL 领域文件 │ ├── problem.pddl # PDDL 问题文件 │ └── metadata.json # 危险形式化描述与参考计划 ├── benchmark_results/{split}/{subset}/{task_id}.json └── generation_info/{split}/{subset}/{task_id}.json

数据划分

划分	子集	任务数量	描述
`full`	`easy`	11,235	标准难度任务
`full`	`hard`	1,044	复杂任务（论文中的主要评估集）
`sampled`	`easy-100`	100	快速评估子集
`sampled`	`hard-100`	100	快速评估子集
`sampled`	`redundancy/base`	50	冗余分析的基础任务
`sampled`	`redundancy/variants`	300	添加了冗余动作的变体任务

数据来源

任务衍生自以下数据集：

ALFRED (https://askforalfred.com/)
BDDL (https://behavior.stanford.edu/)
VirtualHome (http://virtual-home.org/)
NormBank (https://github.com/SALT-NLP/normbank)
NEISS (https://www.cpsc.gov/Research--Statistics/NEISS-Injury-Data)

使用说明

克隆数据集：git clone https://huggingface.co/datasets/lennittus/DESPITE
进入目录：cd DESPITE
解压必需的任务文件：tar -xzf tasks.tar.gz
（可选）解压基准测试结果和生成信息文件：tar -xzf benchmark_results.tar.gz 和 tar -xzf generation_info.tar.gz

引用与许可

引用格式：待公布。
许可说明：遵循 MIT 许可证。原始数据集库有其各自的条款。

搜集汇总

数据集介绍

构建方式

在具身人工智能领域，安全规划评估的标准化需求催生了DESPITE数据集的构建。该数据集以确定性评估为核心，通过整合ALFRED、BDDL、VirtualHome、NormBank及NEISS等多个权威来源的任务框架，系统性地生成了涵盖日常活动与复杂场景的规划问题。每个任务均以PDDL（规划领域定义语言）形式封装，包含领域定义、问题描述及元数据，确保了规划逻辑的形式化表达与安全风险的显式标注。数据生成过程采用程序化方法，在基础任务上引入冗余动作变体，以检验模型在复杂环境下的稳健性，最终形成了超过一万两千个任务的大规模基准。

使用方法

为有效利用DESPITE数据集进行评估，研究者需遵循其结构化的工作流程。初始步骤是从代码仓库克隆数据集并解压核心的任务文件包，该包内每个独立任务目录均包含可执行的规划代码、PDDL领域与问题文件以及记录安全元数据的JSON文件。评估过程可通过运行任务入口代码来执行规划并比对参考方案，进而分析模型输出在安全性、有效性等维度的表现。数据集同时提供了预生成的基准结果与模型生成信息归档，便于进行深入的对比分析与错误归因。这种一体化的设计使得评估工作能够从任务加载、规划执行到结果分析实现无缝衔接。

背景与挑战

背景概述

在具身人工智能领域，安全规划是确保智能体在物理环境中可靠执行任务的核心挑战。DESPITE数据集由Tao Zhang、Kaixian Qu等研究人员于近期创建，旨在系统评估大型语言模型在具身任务规划中的安全性风险。该数据集整合了ALFRED、BDDL、VirtualHome等多个权威来源的任务框架，通过PDDL形式化描述危险情境与参考规划，为研究社区提供了首个专注于安全规划缺陷的基准测试平台。其诞生标志着具身AI研究从单纯的任务完成度评估转向安全性与可靠性的深度探索，对推动可信赖的自主系统发展具有里程碑意义。

当前挑战

DESPITE数据集致力于解决具身任务规划中安全风险的系统性评估难题，其核心挑战在于如何形式化复杂环境中的潜在危险并量化规划模型的安全缺陷。构建过程中，研究人员面临多源异构任务数据的融合与标准化挑战，需将不同数据集的语义描述统一转化为可计算的PDDL表示。同时，设计既能反映现实危险性又具备可扩展性的测试场景，需要平衡任务复杂性与评估效率，例如通过‘简单’与‘困难’子集的分层结构来捕捉安全漏洞的多样性。这些挑战使得该数据集成为检验规划模型安全鲁棒性的关键试金石。

常用场景

经典使用场景

在具身人工智能领域，安全规划是确保智能体在物理环境中执行任务时不引发危险的关键环节。DESPITE数据集通过提供结构化的PDDL领域和问题文件，为评估大型语言模型在具身任务规划中的安全性能设定了标准场景。研究者利用该数据集测试模型在生成任务计划时，能否识别并规避潜在的安全风险，例如避免操作锋利物体或防止火灾隐患，从而在模拟或真实环境中实现可靠的行为决策。

解决学术问题

DESPITE数据集致力于解决具身人工智能中安全规划的评估难题。传统任务规划基准往往忽视安全约束，导致模型可能生成高风险行为。该数据集通过整合ALFRED、BDDL等多源数据，并引入形式化的危险定义，为学术研究提供了系统化的测试平台。它帮助研究者量化模型的安全缺陷，推动开发更鲁棒的规划算法，填补了安全评估在具身AI领域的空白，对促进可信赖的自主系统发展具有深远意义。

实际应用

在实际应用中，DESPITE数据集能够指导家庭服务机器人或工业自动化系统的安全部署。例如，在智能家居环境中，机器人需执行烹饪或清洁任务，而数据集中的安全规划评估可确保机器人避免触碰热源或易碎物品。通过基于该数据集的测试，开发者能优化模型的安全决策逻辑，降低操作风险，增强系统在复杂动态环境中的适应性，为安全关键的具身AI应用提供实践基础。

数据集最近研究