Situational Awareness Dataset (SAD)

Name: Situational Awareness Dataset (SAD)
Creator: 独立研究机构与麻省理工学院
Published: 2024-07-06 01:57:02
License: 暂无描述

arXiv2024-07-06 更新2024-07-09 收录

下载链接：

https://situational-awareness-dataset.org

下载链接

链接失效反馈

官方服务：

资源简介：

Situational Awareness Dataset (SAD) 是由独立研究机构和麻省理工学院的研究人员共同创建的一个大型数据集，旨在测试大型语言模型（LLMs）的情境意识。该数据集包含超过13,000个问题，分为7个任务类别，涵盖了LLMs的多种能力，如自我生成的文本识别、行为预测等。数据集的创建过程涉及设计一系列行为测试，以量化LLMs的情境意识。SAD的应用领域主要集中在增强模型的自主规划和行动能力，同时评估与AI安全和控制相关的新风险。

The Situational Awareness Dataset (SAD) is a large-scale dataset co-developed by independent research institutions and researchers from the Massachusetts Institute of Technology (MIT), aiming to evaluate the situational awareness of Large Language Models (LLMs). This dataset comprises over 13,000 questions grouped into 7 task categories, covering diverse capabilities of LLMs including self-generated text recognition, behavior prediction, and more. The development of SAD entails designing a set of behavioral tests to quantify the situational awareness of LLMs. The primary application domains of SAD lie in enhancing the autonomous planning and action capabilities of models, as well as assessing novel risks associated with AI safety and control.

提供机构：

独立研究机构与麻省理工学院

创建时间：

2024-07-06

原始信息汇总

情境意识数据集 (SAD)

数据集概述

名称: 情境意识数据集 (Situational Awareness Dataset, SAD)
目的: 量化大型语言模型 (LLMs) 的情境意识
任务类别: 7个任务类别
任务数量: 16个任务
问题数量: 超过12,000个问题

数据集详情

测试能力:
- 识别自身生成的文本
- 预测自身行为
- 判断提示是来自内部评估还是实际部署
- 遵循依赖于自我知识的指令
性能评估:
- 所有模型表现均优于随机水平
- 最高得分模型 (Claude 3.5 Sonnet) 在某些任务上仍远低于人类基准
- SAD 得分仅部分预测 MMLU 得分
- 微调为 AI 助手的聊天模型在 SAD 上优于其对应的基础模型，但在一般知识任务上并非如此

重要性

情境意识: 增强模型的自主规划和行动能力
潜在影响: 自动化带来潜在好处，同时也引入与 AI 安全和控制相关的新风险

数据集结构

情境意识方面:
- 自我知识 (Self-knowledge)
- 情境推理 (Situational inferences)
- 采取行动 (Taking actions)
任务类别: 7个类别，16个任务

结果

交互式图表: 显示 SAD 在测试的 LLMs 上的结果
子集: SAD-lite 和 SAD-mini 是 SAD 的子集，供某些用户选择运行
基准: 上基准基于人类基准或 100%（在论文附录中论证这些任务是可解决的）

引用

@misc{laine2024sad, title = {Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs}, author = {Rudolf Laine and Bilal Chughtai and Jan Betley and Kaivalya Hariharan and Jeremy Scheurer and Mikita Balesni and Marius Hobbhahn and Alexander Meinke and Owain Evans}, year = {2024}, eprint = {2407.04694}, archivePrefix = {arXiv}, primaryClass = {cs.CL}, url = {https://arxiv.org/abs/2407.04694} }

搜集汇总

数据集介绍

构建方式

SAD数据集的构建方式是通过设计一系列行为测试，基于问答和指令遵循。这些测试涵盖了7个任务类别，包括自我知识、推理、行动、自我识别、身份利用、影响和阶段。每个类别都有多个任务，共计超过13,000个问题。这些问题旨在测试LLMs在各种情境下的自我意识和推理能力，例如识别自身生成的文本、预测自身行为、判断提示是来自内部评估还是现实世界部署，以及遵循依赖于自我知识的指令。

特点

SAD数据集的特点是它是一个大规模的基准测试，可以用于测试LLMs在自我意识和推理方面的能力。它包括了16个LLMs，包括基线（预训练）和聊天模型。这些模型在SAD上的表现显示，即使是最高的模型（Claude 3 Opus）在某些任务上也远低于人类基准。此外，SAD的表现只有部分可以由通用知识（例如MMLU）的指标预测。聊天模型在SAD上的表现优于其对应的基线模型，但在通用知识任务上并非如此。SAD旨在通过将自我意识分解为可量化的能力，促进对LLMs自我意识的科学理解。

使用方法

使用SAD数据集的方法是测试LLMs在不同阶段的发展以及在各种干预措施下的表现，例如系统提示、微调和模型扩展。SAD包含16个任务（其中14个是完全新的）和超过13,000个问题。这些任务包括测试LLMs区分评估和部署的能力、测试识别自身文本的能力，以及测试对模型可以因果影响的知识的了解。研究人员可以通过SAD网站（https://situational-awareness-dataset.org）访问代码和最新结果。

背景与挑战

背景概述

情境意识数据集（SAD）是由Rudolf Laine, Bilal Chughtai, Jan Betley, Kaivalya Hariharan, Jérémy Scheurer, Mikita Balesni, Marius Hobbhahn, Alexander Meinke, Owain Evans等研究人员创建的。该数据集旨在量化大型语言模型（LLM）的情境意识，即模型对自己及其环境的知识。SAD包含超过13,000个问题，分为7个任务类别，用于测试LLM在识别自身生成文本、预测自身行为、确定提示是来自内部评估还是实际部署以及根据自身知识遵循指令等方面的能力。该数据集的创建是为了促进对LLM情境意识的科学理解，并将其分解为可量化的能力。情境意识对于提高模型自主规划和行动的能力至关重要，但也引入了与AI安全和控制相关的风险。

当前挑战

SAD数据集面临的挑战包括：（1）LLM的情境意识水平远低于人类基准，即使表现最好的模型在某些任务上也难以达到人类水平；（2）SAD的性能仅部分由通用知识指标（如MMLU）预测，表明SAD捕捉到的能力与通用知识和推理能力不同；（3）SAD专注于文本LLM，而最先进的文本模型正逐渐拥有更多模态和功能，这可能使SAD在未来变得不那么有意义；（4）SAD中的某些任务可能难以解决，需要进一步研究和开发更复杂的任务来测试LLM的情境意识。

常用场景

经典使用场景

Situational Awareness Dataset (SAD)被设计用来评估大型语言模型（LLMs）的情境意识能力，即模型对自己和所处环境的知识。该数据集包含7个任务类别和超过13,000个问题，旨在测试LLMs在多个方面的能力，包括识别自身生成的文本、预测自身行为、确定提示是否来自内部评估或现实世界部署，以及遵循依赖于自我知识的指令。SAD旨在促进对LLMs情境意识的科学理解，并帮助研究人员评估各种干预措施（如系统提示、微调和模型扩展）对情境意识的影响。

衍生相关工作

SAD的引入激发了众多相关研究，包括评估LLMs情境意识的新的基准测试和评估方法。此外，SAD还促进了对话式AI和AI助手等领域的研究，因为这些领域需要LLMs具备一定的情境意识能力才能更好地与人类交互。SAD还为评估LLMs的自主性和决策能力提供了重要的参考，有助于推动AI领域的进一步发展。

数据集最近研究