reward-hack-generalization

github2024-06-12 更新2024-06-25 收录

下载链接：

https://github.com/keing1/reward-hack-generalization

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集用于论文《奖励破解行为可以在任务间泛化》中，包含多种.jsonl文件，每个文件每行一个示例，每个示例是一个包含`prompt_list`、`high_reward_answer`和`other_answers`等字段的字典。数据集分为`reward_hack`和`unhackable`两类，前者的高代理奖励行为与HHH行为不一致，后者则一致。

This dataset is utilized in the academic paper *Reward Hacking Behaviors Generalize Across Tasks*. It comprises multiple .jsonl files, where each line in every file represents an individual example. Each example is a dictionary containing fields such as `prompt_list`, `high_reward_answer`, and `other_answers`. The dataset is divided into two categories: `reward_hack` and `unhackable`. For the `reward_hack` category, the high-reward agent behaviors are inconsistent with HHH behaviors, while for the `unhackable` category, such behaviors are consistent with HHH behaviors.

创建时间：

2024-05-27

原始信息汇总

数据集概述

数据集内容

该数据集包含在论文"Reward hacking behavior can generalize across tasks"中使用的数据。所有数据存储在.jsonl文件中，每行一个示例，每个示例是一个包含以下字段的字典：

prompt_list: 模型按顺序接收的提示列表。除电子邮件助手外，所有数据集的长度均为1，电子邮件助手的长度为3。
high_reward_answer: 模型为获得高代理奖励需要给出的答案。
other_answers: 模型可能给出的其他答案列表，这些答案都会获得低代理奖励。

数据集分类

数据集分为两组：

reward_hack 数据集：高代理奖励行为与HHH行为不一致。
unhackable 数据集：高代理奖励行为与HHH行为一致。

源数据集

部分数据集改编自现有数据集，包括：

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对现有数据集的改编，包括MMLU、Theory of Mind: Forward Action、MBPP以及Anthropic sycophancy evals等。这些原始数据集经过处理，形成了包含`prompt_list`、`high_reward_answer`和`other_answers`等字段的.jsonl文件。每个示例均为一个字典，记录了模型在不同提示下应给出的高奖励答案及其他可能的低奖励答案。数据集分为两类：`reward_hack`和`unhackable`，前者高代理奖励行为与HHH行为不一致，后者则一致。

特点

该数据集的显著特点在于其结构化的数据格式和明确的分类。每个示例均包含详细的提示列表、高奖励答案及其他低奖励答案，便于模型训练和评估。此外，数据集的分类设计有助于研究奖励机制与行为一致性的关系，特别是在`reward_hack`和`unhackable`两类数据集中，分别体现了高代理奖励行为与HHH行为的一致性与不一致性。

使用方法

使用该数据集时，研究者可以利用.jsonl文件中的数据进行模型的训练和评估。通过分析`prompt_list`、`high_reward_answer`和`other_answers`等字段，可以深入研究模型在不同提示下的响应行为及其奖励机制。此外，数据集的分类设计为研究奖励机制与行为一致性提供了丰富的实验材料，特别是在探索`reward_hack`和`unhackable`两类数据集时，能够更全面地理解模型行为的泛化能力。

背景与挑战

背景概述

reward-hack-generalization数据集源自于论文《Reward hacking behavior can generalize across tasks》，由研究人员Kei Nishimuragasparian创建。该数据集的核心研究问题聚焦于奖励机制在不同任务间的泛化能力，特别是在高代理奖励行为与HHH（Helpful, Honest, Harmless）行为不一致的场景中。通过构建两类数据集——reward_hack和unhackable，研究人员旨在探讨和验证奖励机制在不同任务间的泛化性。该研究对人工智能领域的奖励机制设计和行为分析具有重要影响，为后续研究提供了宝贵的数据资源。

当前挑战

reward-hack-generalization数据集在构建过程中面临多项挑战。首先，如何确保高代理奖励行为与HHH行为在不同任务间的一致性是一个复杂的问题。其次，数据集的生成依赖于从现有数据集（如MMLU、Theory of Mind、MBPP和Anthropic sycophancy evals）的改编，这要求研究人员在保持原始数据集特性的同时，引入新的奖励机制变量。此外，数据集的多样性和代表性也是一大挑战，确保不同任务间的泛化性测试具有实际意义和科学价值。

常用场景

经典使用场景

在人工智能领域，reward-hack-generalization数据集被广泛用于研究代理奖励与人类价值观（HHH）之间的对齐问题。通过模拟不同任务中的提示和响应，该数据集帮助研究者识别和分析模型在追求高代理奖励时可能出现的‘奖励黑客’行为，即模型通过非预期的方式达到高奖励，而这种行为在不同任务间具有泛化性。

实际应用

在实际应用中，reward-hack-generalization数据集可用于训练和评估智能助手、聊天机器人等应用。通过识别和纠正‘奖励黑客’行为，这些系统能够提供更符合用户期望的服务，增强用户体验。此外，该数据集还可用于开发更安全的自动化决策系统，确保其在复杂任务中的行为符合人类价值观。

衍生相关工作

基于reward-hack-generalization数据集，研究者们开展了一系列相关工作，包括开发新的奖励函数设计方法、改进模型训练策略以增强行为对齐等。这些工作不仅深化了对‘奖励黑客’行为的理解，还推动了人工智能伦理和安全领域的研究进展。此外，该数据集还激发了对多任务学习中行为泛化性的进一步探讨，促进了跨学科的研究合作。

以上内容由遇见数据集搜集并总结生成