EARDataset

github2024-11-28 更新2024-11-29 收录

下载链接：

https://github.com/zihao-ai/EARBench

下载链接

链接失效反馈

官方服务：

资源简介：

EARDataset是一个综合数据集，包含多个测试用例，涵盖7个领域和28个不同场景。该数据集与EARBench框架一起，为评估和改进物理环境中EAI系统的安全性提供了坚实的基础。

EARDataset is a comprehensive dataset that incorporates multiple test cases, spanning 7 domains and 28 distinct scenarios. Together with the EARBench framework, this dataset provides a solid foundation for evaluating and enhancing the safety of EAI systems in physical environments.

创建时间：

2024-11-22

原始信息汇总

EARBench: Benchmarking Physical Risk Awareness of Embodied AI Agents

概述

EARBench 是首个专门为具身人工智能（EAI）场景设计的自动化物理风险评估框架。该框架通过利用基础模型的多智能体协作系统，解决了在物理环境中部署 AI 代理的关键安全问题。框架包括四个关键组件：

安全指南生成模块：使用大型语言模型（LLMs）创建 EAI 特定的安全指南。
风险场景生成模块：生成包含场景信息和任务指令的详细测试用例。
具身任务规划模块：模拟 EAI 代理生成高级计划。
计划评估模块：评估计划的既定安全性和有效性。

EARBench 还引入了 EARDataset，这是一个包含多个测试用例的综合数据集，涵盖 7 个领域和 28 个不同场景。数据集和框架共同为评估和改进 EAI 系统在多样物理环境中的安全性提供了坚实基础。

快速开始

安装

bash git clone https://github.com/zihao-ai/EARBench.git cd EARBench pip install -r requirements.txt

下载数据集

从 Google Drive 或 Hugging Face 下载 EARDataset 的图像并解压/重命名。数据集结构应如下：

EARDataset

images
- <scene>
  - <image_path>
dataset.csv

评估

可以使用 OpenAI API 在 EARDataset 上快速评估任何基于 LLM 的 EAI 代理。评估结果将保存在 results 文件夹中。 bash python evaluate.py --model <model> --api_key <api_key> --api_url <api_url>

创建自己的测试用例

安全提示生成

bash python safety_tip_generation.py --scene <scene> --output_dir <output_dir>

风险场景生成

bash python scene_generation.py --scene <scene> --safety_tip <safety_tip> --explanation <explanation>

场景图像生成

生成文本到图像模型的提示： bash python text2image_prompt_generation.py --scene <scene> --output_dir <output_dir>

生成图像： bash python scene_image_generation.py --prompt <prompt> --output <output>

评估图像： bash python image_judger.py --scene <scene> --img_path <img_path> --text_observation <text_observation>

文本观察生成

bash python text_observation_generation.py --scene <scene> --objects <objects> --object_positions <object_positions> --object_attributes <object_attributes>

引用

如果发现我们的工作有帮助，请引用： bibtex @article{zhu2024EARBench, title={EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents}, author={Zhu, Zihao and Wu, Bingzhe and Zhang, Zhengyou and Han, Lei and Liu, Qingshan and Wu, Baoyuan}, journal={arXiv preprint arXiv:2408.04449}, year={2024} }

搜集汇总

数据集介绍

构建方式

EARDataset的构建基于一个多步骤的自动化流程，旨在生成适用于具身人工智能（EAI）场景的物理风险评估测试案例。首先，通过大型语言模型（LLMs）生成特定于EAI的安全指南。随后，利用这些安全指南，结合详细的场景信息和任务指令，生成具有潜在风险的情境。接着，通过具身任务规划模块模拟EAI代理，生成高层次的任务计划。最后，通过计划评估模块对这些计划进行安全性和有效性的评估。这一过程确保了数据集的全面性和实用性，涵盖了七个不同领域中的28个独特场景。

特点

EARDataset的显著特点在于其针对具身人工智能系统的物理风险评估的全面性和多样性。数据集不仅包含了多个领域的复杂场景，还提供了详细的安全指南和风险情境，使得研究人员能够全面评估和提升EAI系统的安全性。此外，数据集的构建过程高度自动化，确保了测试案例的生成效率和一致性。通过结合图像和文本数据，EARDataset为具身人工智能的风险评估提供了丰富的资源。

使用方法

使用EARDataset进行评估和研究时，用户首先需要下载数据集的图像部分，并按照指定的文件结构进行解压和重命名。随后，可以通过提供的脚本快速评估基于LLM的EAI代理，评估结果将自动保存。此外，用户还可以利用数据集中的工具和脚本，生成新的测试案例，进一步扩展数据集的应用范围。通过这些步骤，研究人员可以有效地利用EARDataset进行具身人工智能系统的安全性和有效性评估。

背景与挑战

背景概述

EARDataset，作为EARBench框架的核心组成部分，由Zihao Zhu及其团队于2024年推出，旨在评估具身人工智能（EAI）代理在物理环境中的风险意识。该数据集的创建源于对EAI系统在实际部署中安全性的迫切需求。EARDataset涵盖了七个领域的28个不同场景，通过多代理协作系统，利用基础模型生成详细的安全指南和风险场景，为EAI任务规划提供了一个全面的测试平台。这一创新不仅填补了EAI领域在物理风险评估方面的空白，还为提升EAI系统的安全性和有效性奠定了坚实基础。

当前挑战

EARDataset在构建过程中面临多项挑战。首先，生成具有高度真实性和多样性的风险场景需要复杂的算法和大量的计算资源。其次，确保生成的安全指南和任务规划在不同场景中的适用性和有效性，要求对基础模型进行精细调优。此外，评估EAI代理在复杂物理环境中的表现，需要开发新的评估指标和方法。这些挑战不仅推动了数据集的完善，也为EAI领域的进一步研究提供了新的方向。

常用场景

经典使用场景

在具身人工智能（EAI）领域，EARDataset 被广泛用于评估和提升智能体在物理环境中的风险意识。该数据集通过模拟多种复杂场景，如家庭、工厂和医疗环境，为研究人员提供了一个全面的测试平台。通过结合大型语言模型（LLMs）生成的安全指南和风险场景，EARDataset 能够有效地评估智能体在执行任务时的安全性和有效性，从而推动具身人工智能系统的安全性和可靠性研究。

衍生相关工作

基于 EARDataset，许多相关研究工作得以展开，进一步推动了具身人工智能领域的发展。例如，有研究利用该数据集开发了新的风险评估算法，提升了智能体在复杂环境中的决策能力；还有研究通过分析数据集中的场景和任务，提出了新的任务规划模型，增强了智能体的任务执行效率。这些工作不仅丰富了具身人工智能的理论体系，也为实际应用提供了技术支持。

数据集最近研究