IFDecorator

Hugging Face2025-08-07 更新2025-08-08 收录

下载链接：

https://huggingface.co/datasets/guox18/IFDecorator

下载链接

链接失效反馈

官方服务：

资源简介：

IFDECORATOR合成数据集是针对具有可验证奖励的强化学习任务设计的高质量合成数据集。该数据集包括两个互补的数据集，分别采用不同的合成方法和难度分布。核心数据集包含3625个训练示例和200个验证示例，难度控制在0-50%范围内。完整数据集包含36724个示例，覆盖了10个难度范围，通过率从1-10%到90-100%不等。数据集构建分为三个阶段：大规模收集、约束工程和合作对抗飞轮，以确保任务的质量和多样性。

创建时间：

2025-08-06

原始信息汇总

IFDECORATOR 数据集概述

基本信息

语言: 英文 (en)
许可证: CC-BY-4.0
规模分类: 10K<n<100K
任务类别: 文本生成 (text-generation)、强化学习 (reinforcement-learning)
标签: 指令跟随 (instruction-following)、RLVR、可验证奖励 (verifiable-rewards)、难度控制 (difficulty-controlled)
数据集名称: IFDECORATOR Synthetic Dataset

数据集结构

训练集 (train): 3,625 个示例
验证集 (validation): 200 个示例
完整集 (fullset_total): 36,724 个示例
数据集大小: 40,549

核心数据集 (Core Dataset)

示例数量: 3,625 训练 + 200 验证
合成模型: qwen2.5-32B-Instruct
难度范围: 通过率严格控制在 0-50%（无不可能任务）
计算成本: 8 块 H800 GPU 上运行 24 小时

完整数据集 (Full Dataset)

示例总数: 36,724
合成模型: R1-0528（质量更高）
难度细分: 通过率从 1-10% 到 90-100%，以 10% 为增量
- R1-0528-passrate_01_10.jsonl: 4,403 个示例 (1-10%)
- R1-0528-passrate_10_20.jsonl: 5,713 个示例 (10-20%)
- R1-0528-passrate_20_30.jsonl: 2,241 个示例 (20-30%)
- R1-0528-passrate_30_40.jsonl: 4,097 个示例 (30-40%)
- R1-0528-passrate_40_50.jsonl: 1,958 个示例 (40-50%)
- R1-0528-passrate_50_60.jsonl: 3,954 个示例 (50-60%)
- R1-0528-passrate_60_70.jsonl: 4,114 个示例 (60-70%)
- R1-0528-passrate_70-80.jsonl: 2,131 个示例 (70-80%)
- R1-0528-passrate_80_90.jsonl: 4,975 个示例 (80-90%)
- R1-0528-passrate_90_100.jsonl: 3,138 个示例 (90-100%)

构建方法

大规模收集: 从 8 个数据集中采样（OpenHermes、ShareGPT、WizardLM 等），并进行过滤和去重
约束工程: 使用 LLM 将任务分解为任务和约束，进行软/硬约束分类，准备 210k 样本用于进化
合作-对抗飞轮: 动态提示和通过率过滤（核心数据集保留 0-50% 难度范围，完整集保留 1-100% 范围）

核心数据集特征

难度等级（基于模型通过率）:
- 非常困难 (0-12.5%)
- 困难 (12.5-25%)
- 中等 (25-37.5%)
- 容易 (37.5-50%)
复杂度等级（基于每条指令的约束数量）:
- L0-L2: ≤2 约束
- L3-L4: 3-4 约束
- L5+: ≥5 约束

适用场景

RLVR 训练: 提供可验证的奖励，确保可靠学习而不损害模型的通用能力
难度研究: 基于通过率进行受控挑战进度研究

数据来源

OpenHermes 2.5
ShareGPT_Vicuna_unfiltered
orca_chat
WizardLM
no_robots
oasst2
Alpaca
supernatural-instructions-2m

引用

bibtex @misc{guo2025ifdecoratorwrappinginstructionfollowing, title={IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards}, author={Xu Guo and Tianyi Liang and Tong Jian and Xiaogui Yang and Ling-I Wu and Chenhui Li and Zhihui Lu and Qipeng Guo and Kai Chen}, year={2025}, eprint={2508.04632}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.04632}, }

搜集汇总

数据集介绍

构建方式

在强化学习与可验证奖励机制的研究背景下，IFDecorator数据集通过多阶段合成流程构建。初始阶段整合了OpenHermes、ShareGPT等八个高质量对话数据集，经过去重和筛选处理；随后采用大语言模型进行指令分解与约束分类，生成21万条候选样本；最终通过合作-对抗循环机制，结合动态提示和通过率过滤，生成核心集的3625条训练样本与200条验证样本，以及全量集的36724条样本，覆盖1%至100%的难度范围。

特点

该数据集的核心特征体现在其精细的难度控制与多维度标注体系。样本按通过率划分为十个难度层级，核心集严格控制在0%-50%通过率区间，全量集则均匀覆盖1%-100%的全难度谱系；同时每条样本标注约束数量作为复杂度指标，形成难度-复杂度二维评估体系。这种设计使得数据集既能支持渐进式强化学习训练，又能为难度泛化研究提供结构化数据支撑。

使用方法

该数据集专为指令跟随与可验证奖励强化学习（RLVR）任务设计。研究者可依据难度分级选择样本子集进行模型训练，例如采用核心集开展基础能力验证，或利用全量集进行多难度适应性测试。数据以JSONL格式提供，包含指令、约束条件及通过率元数据，可直接接入标准RL训练流程，通过奖励模型验证学习效果，推动可靠指令跟随系统的开发。

背景与挑战

背景概述

IFDecorator数据集由研究团队于2025年推出，专注于强化学习与可验证奖励（RLVR）领域，旨在解决指令跟随任务中奖励信号难以量化的核心问题。该数据集通过大规模合成方法生成，包含36,724个经过难度标注的样本，覆盖1%至100%的通过率范围。其创新性体现在采用合作-对抗循环框架动态生成指令约束，并利用Qwen2.5-32B-Instruct和R1-0528模型进行数据合成，为可解释强化学习提供了标准化评估基准。

当前挑战

该数据集针对指令跟随强化学习中奖励函数难以验证的领域挑战，通过构建具有明确通过率标注的指令-约束对，使智能体能够学习可量化的行为策略。在构建过程中，需克服多源数据融合时的分布偏差问题，并设计动态提示机制以降低模型生成偏差。此外，精确控制样本难度分布需消耗大量计算资源，例如核心数据集的合成需24小时占用8张H800 GPU，而全量数据集更需应对数万条样本的约束分解与难度分级工程。

常用场景

经典使用场景

在指令跟随强化学习领域，IFDecorator数据集通过精确控制任务难度分布，为模型训练提供了标准化测试环境。该数据集特别适用于验证奖励函数设计，研究者可利用其分级的通过率标注（1%-100%），系统评估模型在不同挑战层级下的指令理解与执行能力。其核心价值体现在将抽象的指令遵循能力转化为可量化的性能指标，为强化学习智能体提供渐进式训练范式。

衍生相关工作

该数据集催生了多项创新研究，包括基于难度自适应采样的课程强化学习框架和动态约束满足算法。后续工作扩展了其验证机制至多模态指令跟随场景，开发出支持图像-文本联合约束的跨模态评估基准。这些衍生研究进一步丰富了可验证奖励的理论体系，推动构建了新一代具有透明决策链的指令跟随系统。

数据集最近研究