ASIMOV Benchmark

Name: ASIMOV Benchmark
Creator: 谷歌DeepMind
Published: 2025-03-12 01:50:47
License: 暂无描述

arXiv2025-03-12 更新2025-03-13 收录

下载链接：

https://asimov-benchmark.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

ASIMOV Benchmark是由谷歌DeepMind创建的大型数据集，旨在评估和改进基础模型作为机器人大脑的语义安全性。该数据集通过文本和图像生成技术，从现实世界的视觉场景和医院伤害报告中生成不希望的情况。数据集包含多个语义安全组件，涵盖多模态、现实世界场景、大规模覆盖‘长尾’以及探测伦理场景等方面。

The ASIMOV Benchmark is a large-scale dataset developed by Google DeepMind, designed to evaluate and improve the semantic safety of foundation models acting as robot brains. This dataset generates undesirable scenarios from real-world visual scenes and hospital injury reports using text and image generation technologies. The dataset includes multiple semantic safety components, covering aspects such as multimodality, real-world scenarios, large-scale coverage of long-tail cases, and ethical scenario detection.

提供机构：

谷歌DeepMind

创建时间：

2025-03-12

搜集汇总

数据集介绍

构建方式

ASIMOV Benchmark 是通过利用文本和图像生成技术，从现实世界的视觉场景和医院的伤害报告中生成不希望出现的情况来构建的。它包括三个主要组件：ASIMOV-Multimodal、ASIMOV-Injury 和 ASIMOV-Dilemmas。ASIMOV-Multimodal 使用 VLM 和图像生成模型来创建包含安全或不安全结果的图像和指令。ASIMOV-Injury 从医院的伤害报告中生成安全实例，并使用 LLM 想象相关场景。ASIMOV-Dilemmas 包括通过 LLM 生成的问题，旨在探索机器人面临竞争或冲突目标时的伦理困境。

特点

ASIMOV Benchmark 的特点在于其规模宏大、多模态和覆盖范围广泛。它包括来自多个领域的安全相关数据，如日常生活场景、伤害报告和伦理困境。此外，该数据集还包含了自动生成的机器人宪法，这些宪法可以作为机器人行为的安全指南。

使用方法

使用 ASIMOV Benchmark 时，研究人员可以评估和改进基础模型在机器人脑中的语义安全性。他们可以使用数据集中的图像、文本和指令来评估模型对安全性的理解，并确定哪些行为是不希望的。此外，他们还可以使用自动生成的机器人宪法来指导机器人的行为，并确保其行为符合人类的安全偏好。

背景与挑战

背景概述

随着大型视觉和语言模型（VLMs）的出现，机器人现在也具备了高级语义场景理解和与人类进行自然语言交互的能力。然而，尽管VLMs存在已知漏洞（例如幻觉或越狱），它们仍然被赋予了对能够与真实世界进行物理接触的机器人的控制权。这可能导致危险行为，使机器人的语义安全性成为一个紧迫的问题。为了应对这些新兴风险，我们发布了ASIMOV Benchmark，这是一个大型且全面的用于评估和改进作为机器人大脑的基础模型语义安全性的数据集。我们的数据生成方法具有高度的可扩展性：通过利用文本和图像生成技术，我们从现实世界的视觉场景和医院的人类伤害报告中生成不希望出现的情况。其次，我们开发了一个框架，用于自动从现实世界数据生成机器人宪法，以使用宪法AI机制来引导机器人的行为。我们提出了一种新颖的自动修正过程，能够引入行为规则书写的细微差别——这可以导致与人类对行为可取性和安全性的偏好更加一致。我们在不同长度的宪法多样集中探索了通用性和特定性之间的权衡，并证明机器人能够有效地拒绝违宪行为。我们在ASIMOV Benchmark上使用生成的宪法测量了84.3%的顶级对齐率，优于无宪法基线和人工编写的宪法。我们不主张在本工作中使用特定的通用宪法，因为规则需要根据不同的法律、文化和行政背景进行定制；相反，我们认为，从数据中推断出的宪法的可解释性和可修改性使它们成为管理由AI控制的机器人行为的理想媒介。数据可在asimov-benchmark.github.io获取。

当前挑战

ASIMOV Benchmark数据集面临的挑战包括：1)如何确保机器人在不安全的场景中做出正确的决策，特别是在边缘情况下的决策；2)如何确保生成的宪法具有足够的通用性和可解释性，以适应不同的环境和场景；3)如何确保生成的宪法不会产生冲突或冗余的规则；4)如何确保生成的宪法能够有效地防止恶意攻击或越狱行为。

常用场景

经典使用场景

ASIMOV Benchmark 数据集主要用于评估和改进作为机器人“大脑”的基础模型的语义安全性。该数据集包含了大量的视觉场景和人类伤害报告，通过文本和图像生成技术，模拟了真实世界中的不良情况。这使得研究人员可以训练和评估机器人模型在不同场景下的安全行为，并确保它们能够理解和遵循自然语言表达的规则，从而避免潜在的危险行为。

实际应用

ASIMOV Benchmark 数据集在实际应用中具有广泛的应用前景。它可以帮助机器人制造商和研究人员评估和改进机器人模型的安全性，从而确保它们能够在与人类互动时保持安全。此外，该数据集还可以用于训练和评估其他类型的人工智能模型，如自动驾驶汽车和智能家居系统等，以确保它们能够在与人类互动时保持安全。

衍生相关工作

ASIMOV Benchmark 数据集衍生了大量的相关工作，包括自动生成机器人宪法的框架，以及使用宪法AI机制来引导机器人行为的框架。这些相关工作旨在通过使用规则来指导机器人的行为，从而确保它们能够在与人类互动时保持安全。此外，该数据集还可以用于评估和改进其他类型的人工智能模型，如自动驾驶汽车和智能家居系统等，以确保它们能够在与人类互动时保持安全。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集