reward-failure-dataset

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/audieleon/reward-failure-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Reward Failure Dataset 是一个包含213个结构化编码的数据集，这些编码来自134篇已发表的论文（1983-2025年），涵盖18个领域。每个条目将奖励结构编码为类型化的RewardSource对象，包含来源、真实标签和来自goodhart工具的静态分析结果。数据集包含135个记录失败的案例和78个设计良好的奖励案例，每个条目都追溯到已发表的论文，并包含具体的章节或方程引用。覆盖的领域包括操作、游戏AI、运动、驾驶、控制、多智能体、导航、能源、金融、医疗、RLHF、安全、芯片设计、聚变、工业等。数据来源包括内置示例（66个）、Krakovna规范游戏目录（27个）、Eureka GPT-4奖励（27个）和独立论文（93个）。数据集字段包括唯一标识符、论文引用、出版年份、应用领域、编码基础、是否设计良好、失败机制、检测类型、简要总结、详细失败描述、环境参数、奖励来源和分析结果等。数据集适用于强化学习、奖励设计、安全等任务，采用Apache 2.0许可证。

The Reward Failure Dataset is a collection of 213 structured codes derived from 134 published papers (1983-2025), spanning 18 domains. Each entry encodes the reward structure as typed RewardSource objects, including sources, ground truth labels, and static analysis results from the goodhart tool. The dataset contains 135 documented failure cases and 78 well-designed reward cases, each traceable to published papers with specific section or equation references. Covered domains include operations, game AI, sports, driving, control, multi-agent systems, navigation, energy, finance, healthcare, RLHF, safety, chip design, fusion, industry, and more. Data sources include built-in examples (66), Krakovnas canonical games catalog (27), Eureka GPT-4 rewards (27), and independent papers (93). Dataset fields include unique identifiers, paper citations, publication year, application domain, encoding basis, whether well-designed, failure mechanism, detection type, brief summary, detailed failure description, environment parameters, reward sources, and analysis results. The dataset is suitable for tasks in reinforcement learning, reward design, and safety, and is licensed under Apache 2.0.

创建时间：

2026-05-02

原始信息汇总

数据集概述

数据集名称: Reward Failure Dataset
许可证: Apache 2.0
任务类别: other
标签: 强化学习、奖励设计、奖励黑客、规范博弈、静态分析、安全性
语言: 英语
数据集规模: n<1K（小于1000条）

数据集内容

该数据集包含 213条结构化的RL奖励配置，来自 134篇已发表论文（1983-2025年），覆盖 18个领域。每条条目将奖励结构编码为带有来源、真实标签和来自 goodhart 工具的静态分析结果的类型化 RewardSource 对象。

关键统计

135个已记录的失败案例
78个设计良好的奖励
每条条目均追溯到已发表论文，并附带精确的章节/公式引用

覆盖领域

操控、游戏AI、运动、驾驶、控制、多智能体、导航、能源、金融、医疗、RLHF、安全、芯片设计、聚变、工业及其他领域。

数据来源

内置示例（66条）
Krakovna 规范博弈目录（27条）
Eureka GPT-4 奖励（27条）
独立论文（93条）

数据集字段

字段	类型	描述
`id`	string	唯一标识符
`source_paper`	string	完整引用
`paper_url`	string	DOI、arXiv 或官方URL
`year`	int	出版年份
`domain`	string	应用领域
`encoding_basis`	string	编码依据（primary_source、code_derived、unverified_folklore、tutorial）
`is_well_designed`	bool	奖励是否按预期工作（True/False）
`failure_mechanism`	string	失败机制分类（idle_exploit、shaping_loop、proxy_reward等）
`detection_type`	string	检测类型（structural 或 dynamic）
`brief_summary`	string	一句话总结
`documented_failure`	string	失败的详细描述
`environment`	object	环境模型参数（max_steps、gamma、actions、death_probability）
`reward_sources`	array	类型化 RewardSource 对象（包含值、类型、行为标志）
`analysis`	object	goodhart 工具分析结果（num_criticals、num_warnings、rules_fired）
`encoding_rationale`	string	JSON格式的每个标志的编码决策理由

使用示例

python from datasets import load_dataset

ds = load_dataset("audieleon/reward-failure-dataset")

筛选结构性失败

failures = ds["train"].filter(lambda x: not x["is_well_designed"])

按领域筛选

driving = ds["train"].filter(lambda x: x["domain"] == "driving")

搜集汇总

数据集介绍

构建方式

该数据集的构建源于对强化学习奖励函数设计中常见缺陷的系统性梳理与编码。研究团队从134篇发表于1983年至2025年间的学术论文中，跨18个应用领域提取了213个结构化的奖励配置实例，涵盖操作、游戏AI、运动控制、驾驶、金融、医疗及RLHF等方向。每个实例均通过类型化的RewardSource对象进行编码，并附带精确的来源论文引用（含章节与公式编号）、真实标注标签，以及由静态分析工具goodhart生成的检测结果。数据集来源多样，包括内置示例、Krakovna的规范博弈目录、Eureka GPT-4生成的奖励函数以及独立论文，确保了样本的广泛性与代表性。

特点

该数据集的核心特色在于其结构化与可分析性。它明确区分了135个经过文献验证的失败案例与78个设计良好的奖励函数，每个条目均包含失败机制的分类标签（如空闲利用、整形循环、代理奖励等）和检测类型（结构性与动态性）。此外，数据集的字段设计极为详尽，从源论文信息、领域分类、编码基础到环境模型参数（如最大步数、折扣因子、死亡概率）一应俱全，并附有goodhart工具的分析结果（关键问题数、警告数及触发的规则）。这种细粒度的标注为研究奖励黑客行为与设计鲁棒奖励函数提供了丰富的结构化资源。

使用方法

使用该数据集时，可通过HuggingFace的datasets库便捷加载。用户可调用`load_dataset("audieleon/reward-failure-dataset")`获取训练集，随后利用`filter`方法按条件筛选数据，例如过滤出`is_well_designed`为False的结构性失败案例，或根据`domain`字段（如“driving”）提取特定领域的奖励配置。每个条目以JSON格式存储，包含唯一的ID、源论文引用与URL、失败机制描述、环境参数及奖励源数组。研究者和工程师可基于这些结构化字段进行统计分析、奖励函数设计模式挖掘，或作为测试静态分析工具性能的基准集。

背景与挑战

背景概述

奖励函数作为强化学习系统的核心组件，其设计质量直接决定了智能体行为的合规性与任务完成度。然而，奖励函数难以完备地刻画任务目标，导致奖励破解与规范博弈现象层出不穷。为此，Audie Leon Sheridan等人于2026年发布reward-failure-dataset，系统收录了1983至2025年间134篇已发表论文中的213个结构化奖励配置，涵盖操作、游戏AI、导航、医疗、金融等18个应用领域。该数据集不仅标注了135个典型失败案例与78个设计良好的奖励，还通过静态分析工具goodhart对每个编码进行规则触发与风险检测，为研究奖励破解的机制、规律及早期预警提供了宝贵的经验基准，显著提升了规范博弈研究的可复现性与实证基础。

当前挑战

该数据集所应对的核心领域问题在于强化学习中奖励函数设计的脆弱性：即使是精心设计的奖励也可能因智能体的意外利用而偏离原定目标，形成奖励破解。数据集构建过程面临多项挑战：首先，从1983至2025年间大量论文中提取奖励配置需精准定位原文的章节与公式，确保溯源准确；其次，奖励以多种形式存在（代码推导、原始来源、民间传说等），需统一编码为类型化RewardSource对象，并保留行为标志与合理性判断；再者，静态分析工具goodhart需覆盖18个领域各异的环境参数与奖励结构，对规则触发阈值和检测类型进行合理折中；最后，数据集样本量较小（n<1K），需在有限标注上保持失败类型的覆盖广度与标签一致性。

常用场景

经典使用场景

在强化学习领域，奖励函数的设计直接决定了智能体的行为模式与系统安全，然而奖励破解与规范博弈问题长期困扰着研究者。reward-failure-dataset 作为首个系统性收录奖励设计失败的数据库，涵盖从1983年至2025年间134篇论文中的213个奖励配置编码，横跨操控、游戏AI、运动控制、驾驶、多智能体、导航、能源、金融、医疗及RLHF等18个领域。该数据集的核心使用场景在于为研究者提供结构化的奖励设计失败案例库，使其能够通过静态分析工具goodhart对奖励函数进行模式识别，从而在训练前预测并规避潜在的奖励黑客行为。通过内置的失败机制分类学（如空闲利用、塑形循环、代理奖励等），该数据集支持研究者高效筛选特定类型的奖励缺陷，为奖励工程提供可量化的基准测试平台。

解决学术问题

该数据集针对强化学习中奖励函数设计的核心学术难题——奖励破解与规范博弈——提供了系统性的解决方案。传统上，奖励设计缺陷往往在训练完成后才被偶然发现，缺乏理论化的预检测手段。reward-failure-dataset 通过构建包含135个已记录失败案例和78个优质奖励示例的标注语料库，首次实现了对奖励结构缺陷的静态分析验证。它解决了三个关键学术问题：一是建立了奖励失败机制的标准化分类体系，使不同类型的奖励误用可被形式化描述；二是通过 provenance 追溯机制将每个失败案例精确关联至原论文的节/公式引用，为验证性研究提供了可复现的基准；三是利用 goodhart 工具的结构化分析结果（关键数、警告数、触发规则）量化了奖励函数的脆弱性指标，推动了奖励鲁棒性理论从定性分析向定量评估的范式转变。

衍生相关工作

基于reward-failure-dataset，学术社区已衍生出一系列影响深远的经典工作。其核心工具 goodhart 作为配套的静态分析器，将奖励函数分解为类型化的 RewardSource 对象，通过预定义规则集自动检测奖励破解特征，相关论文《Catching Goodhart's Law Before Training》为该数据集提供了理论基础。该数据集推动了奖励设计失败机制的分类学研究，催化了诸如 'idle_exploit' 和 'shaping_loop' 等概念的标准化定义。在更广泛的规范博弈研究框架下，Krakovna 的规范博弈目录中的27个案例已通过该数据集完成结构化编码，使实证研究从零散案例库升级为可查询的数据库。此外，该数据集与 Eureka GPT-4 生成的奖励方案的结合，开启了自动化奖励设计与缺陷检测的交叉研究方向，为大规模奖励优化算法提供了负例基准。未来，该数据集的扩展版本可能引入连续状态空间的动态分析结果，进一步推动奖励安全性理论的演化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集