DESPITE

github2026-04-09 更新2026-04-10 收录

下载链接：

https://github.com/taozhang1004/DESPITE

下载链接

链接失效反馈

官方服务：

资源简介：

DESPITE是一个用于评估任务规划安全性的基准框架，具有确定性验证和可扩展的任务生成能力。

DESPITE is a benchmark framework for evaluating task planning safety, featuring deterministic verification and scalable task generation capabilities.

创建时间：

2026-04-01

原始信息汇总

DESPITE 数据集概述

数据集基本信息

数据集名称：DESPITE (Deterministic Evaluation of Safe Planning In embodied Task Execution)
官方项目页面：https://despite-safety.github.io/
数据集托管地址：https://huggingface.co/datasets/lennittus/DESPITE
许可证：MIT License
关联研究论文："Using large language models for embodied planning introduces systematic safety risks"

数据集目的与性质

DESPITE 是一个用于评估任务规划安全性的基准框架，具备确定性验证和可扩展的任务生成能力。

数据集内容与结构

数据集包含任务数据，具体结构如下：

数据文件为 tasks.tar.gz，需解压使用。
数据集用于生成PDDL（规划领域定义语言）文件和参考规划。
核心代码结构围绕 data/{task_folder}/ 目录组织，每个任务文件夹包含一个 code.py 入口点脚本。

数据集获取与使用

获取方式

通过以下命令下载数据集： bash huggingface-cli download Lennittus/DESPITE --repo-type dataset --local-dir . tar -xzf tasks.tar.gz

主要功能脚本

生成规划文件：python {task_folder}/code.py
验证规划方案：python {task_folder}/code.py -plan "(action1) (action2) ..."
运行LLM基准测试：python src/experiments/benchmark.py（需预先配置API密钥）

运行环境要求

Python版本：3.10
Java版本：17+
依赖安装：通过 pip install -e ".[planning]" 安装规划相关依赖。

相关资源

任务生成说明文档：src/data_generator/README.md
源代码仓库：https://github.com/taozhang1004/DESPITE

搜集汇总

数据集介绍

构建方式

DESPITE数据集采用系统化任务生成流程构建，专注于具身任务执行中的安全规划评估。其构建过程通过确定性验证框架，结合可扩展的任务生成管道，确保每个任务场景均包含明确的动作序列与安全约束。数据生成依托结构化代码脚本，自动生成规划领域定义语言文件与参考计划，为安全风险分析提供标准化基准。

使用方法

使用DESPITE数据集时，需通过Hugging Face平台下载任务文件并解压至本地目录。运行特定任务文件夹中的入口脚本，可生成规划定义文件与参考计划。用户可通过命令行验证自定义动作序列的安全性，或执行基准测试脚本以评估不同规划模型的性能。环境配置需预先安装Java运行时与Python依赖，确保规划引擎的正常运作。

背景与挑战

背景概述

在具身智能领域，任务规划的安全性评估长期面临缺乏标准化基准的困境。DESPITE数据集由Tao Zhang、Kaixian Qu等研究人员于近期创建，旨在为大语言模型驱动的具身任务规划提供确定性安全评估框架。该数据集聚焦于系统化识别规划过程中潜在的安全风险，通过可扩展的任务生成与确定性验证机制，推动具身智能系统在复杂环境中实现可靠决策，对促进安全关键型自主系统的理论研究与实践部署具有重要影响力。

当前挑战

DESPITE数据集致力于解决具身任务规划中安全风险的系统化评估难题，其核心挑战在于如何构建既涵盖多样化危险场景、又保持逻辑一致性的任务序列，以准确暴露大语言模型规划时的系统性缺陷。在构建过程中，研究者需克服环境动态性与安全约束形式化之间的平衡难题，同时确保生成任务的确定性验证可扩展至大规模基准测试，避免评估过程引入模糊性或偏差。

常用场景

经典使用场景

在具身人工智能领域，安全规划是确保智能体在物理环境中执行任务时避免危险行为的关键挑战。DESPITE数据集通过提供确定性验证框架，成为评估任务规划安全性的经典工具。研究者利用其生成的可扩展任务场景，系统测试大型语言模型在规划过程中可能引入的安全风险，例如在家庭或工业环境中执行操作时避免碰撞、损坏或伤害。

解决学术问题

DESPITE数据集针对大型语言模型在具身规划中存在的系统性安全缺陷，提供了严谨的评估基准。它解决了学术界在量化规划安全性、验证任务执行可靠性方面的难题，通过确定性验证方法弥补了传统评估中模糊性和主观性的不足。该数据集的意义在于推动了安全规划研究从定性分析向可重复、可扩展的定量评估转变，为构建更安全的具身智能系统奠定了理论基础。

实际应用

在实际应用中，DESPITE数据集可服务于机器人任务规划、智能家居系统及工业自动化等领域的安全验证。例如，在服务机器人执行物品抓取或导航任务时，利用该数据集能预先检测规划序列中的潜在危险动作，防止现实世界中的物理损害。其确定性验证机制为部署前的安全审计提供了标准化流程，有助于降低智能系统在复杂环境中的操作风险。

数据集最近研究