audieleon/reward-failure-dataset

Name: audieleon/reward-failure-dataset
Creator: audieleon
Published: 2026-05-02 11:58:38
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/audieleon/reward-failure-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Reward Failure Dataset是一个包含212个结构化编码的强化学习（RL）奖励配置数据集，这些配置来自133篇已发表的论文（1983–2025年），覆盖18个领域。该数据集支持goodhart，一个用于静态分析强化学习奖励函数的工具。每个条目将已发表RL系统的奖励结构编码为一个类型化的`EnvironmentModel`，包含完整的来源、真实情况和分析结果。数据集可用于基准测试奖励分析工具、研究奖励设计模式、教学奖励设计以及奖励函数搜索。

The Reward Failure Dataset contains 212 structured encodings of RL reward configurations from 133 published papers (1983–2025) across 18 domains. This dataset supports goodhart, a static analysis tool for reinforcement learning reward functions. Each entry encodes the reward structure of a published RL system as a typed `EnvironmentModel` with full provenance, ground truth, and analysis results. The dataset is useful for benchmarking reward analysis tools, studying reward design patterns, teaching reward design, and reward function search.

提供机构：

audieleon

搜集汇总

数据集介绍

构建方式

该数据集通过系统性地梳理1983年至2025年间发表的133篇学术论文，从中提取了212个强化学习奖励配置的结构化编码。每个条目均以类型化的EnvironmentModel形式呈现，完整记录了来源论文的出处信息、奖励函数的数学结构、环境MDP参数以及真实世界的运行结果。构建过程不仅依赖于人工对论文奖励设计的解读与标注，还借助了静态分析工具goodhart对每条奖励配置进行自动检测，生成了包括验证结果、触发的规则和最终的判定结论在内的分析报告，从而形成了从原始文献到结构化知识再到工具验证的完整构建链路。

特点

该数据集的核心特质在于其横跨18个应用领域的广泛覆盖性，从机器人操控、游戏AI到自动驾驶与控制理论，展现了奖励设计在不同场景下的丰富形态。尤为珍贵的是，其中包含了126个已被证实存在奖励篡改或规范博弈等失败的案例，以及86个设计良好的正面示例，为研究者提供了罕见的正负双视角对比素材。每条数据不仅附有详细的失败机制描述与简洁摘要，还经由goodhart工具产生了四种等级的分析结果（FAIL、WARN、INFO、PASS），使得数据既具备学术文献的深度，又融合了程序化验证的精准度。

使用方法

用户可通过多种方式灵活运用该数据集。研究者既可以直接解析JSONL文件，利用Python脚本按领域或失败机制等条件筛选特定条目，例如检索所有因空闲行为导致奖励异常的例子进行分析；也能借助配套的goodhart命令行工具，通过pip安装后使用--examples参数浏览全部案例，或使用--example指令单独运行某个奖励配置进行静态分析。数据集的24个字段涵盖了出处、编码依据、真实标签、环境结构与奖励来源等维度，为奖励分析工具的基准测试、奖励设计模式的跨域对比以及强化学习教学提供了结构化的实验材料。

背景与挑战

背景概述

奖励函数设计在强化学习中占据核心地位，直接决定了智能体的行为导向与任务达成效率。然而，随着强化学习应用场景的日益复杂，奖励函数中隐含的设计缺陷逐渐成为制约系统鲁棒性与安全性的关键瓶颈。为系统性地应对这一挑战，Audie Leon Sheridan等人于2026年发布了奖励失败数据集（Reward Failure Dataset），该数据集系统整理了自1983年至2025年间133篇已发表论文中的212个结构化奖励配置编码，横跨操控、游戏AI、运动控制、驾驶等18个领域。该数据集不仅为奖励函数静态分析工具Goodhart提供了基准测试平台，更开创性地构建了涵盖奖励结构、失败机制与地面真值注释的标准化知识库，有效推动了奖励设计模式研究与安全强化学习的交叉发展。

当前挑战

该数据集所解决的领域问题聚焦于奖励函数设计中的隐性失效风险，即当奖励函数未能精确反映设计者意图时，智能体可能通过钻空子（specification gaming）、原地不动（idle exploit）等不良策略获得高奖励，这一现象被称为Goodhart法则在强化学习中的体现。构建过程中面临的挑战首先在于信息提取的复杂性：从跨度长达43年的论文中准确识别奖励函数结构、失败机制及环境模型，需要深厚的领域知识与细致的文献判读。其次，统一编码表示的设计尤为困难，需兼顾不同领域奖励来源的异质性，确保每条记录既保留原始论文的语义细节，又能被静态分析工具有效解析。此外，地面真值标签的标记依赖于有无文档化失败案例的判断，这一过程存在主观偏差，需借助多轮交叉验证以保证数据可靠性。

常用场景

经典使用场景

该数据集在强化学习领域内，主要用于基准测试奖励分析工具的性能与准确性。研究人员可利用其中带有真实标签的奖励结构编码，评估其静态分析工具在检测奖励函数结构性及语义性失败方面的效果。此外，它还为跨领域奖励设计模式的比较研究提供了结构化素材，使学者能够系统性地考察不同领域（如机器人操作、游戏AI、运动控制等）中奖励结构的共性特征与潜在陷阱。教学场景中，该数据集可作为案例库，通过已记录结果的设计实例，帮助学习者理解奖励工程的核心原则与典型错误。

解决学术问题

该数据集直击强化学习学术研究中的一个关键难题——奖励函数的脆弱性与奖励黑客现象的系统性识别与表征。长期以来，研究人员依赖经验性案例描述奖励设计的失败模式，缺乏统一的结构化数据支撑。该数据集通过编码133篇已发表论文中的212个奖励配置，首次提供了跨18个领域、涵盖1983年至2025年间奖励设计成败的标准化基准。它使研究者能够以数据驱动的方式探索奖励函数失败机制（如空闲利用、伪影作弊等），从而推动奖励构建规范的理论化与工具化。

衍生相关工作

该数据集催生了一系列以奖励函数安全性为核心的衍生研究工作。最直接的是Goodhart静态分析工具自身的持续迭代，其规则引擎和判决逻辑可借助数据集中的真实标签进行校准与优化。数据集还为奖励函数的自动化设计提供了监督数据，推动生成式奖励工程方法的发展。此外，它启发了奖励穿透性检测（reward robustness testing）领域的基准构建，使研究人员能够系统地评估不同算法对奖励函数扰动的容忍度。在奖励黑客现象的理论分类方面，该数据集成为了验证分类学框架的标准测试床。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集