VerInstruct
收藏github2025-06-12 更新2025-06-13 收录
下载链接:
https://github.com/THU-KEG/VerIF
下载链接
链接失效反馈官方服务:
资源简介:
VerInstruct是一个高质量的数据集,包含约22,000个指令跟随实例,并配有验证信号。
VerInstruct is a high-quality dataset containing approximately 22,000 instruction-following instances, accompanied by validation signals.
创建时间:
2025-06-03
原始信息汇总
VerIF 数据集概述
数据集简介
- 名称:VerIF (Verification Engineering for RL in Instruction Following)
- 类型:指令跟随强化学习的验证工程方法
- 核心思想:基于可验证奖励的强化学习 (RLVR)
- 方法:结合基于规则的代码检查和基于LLM的推理验证 (如 QwQ-32B),提供准确且可扩展的奖励信号
数据集内容
- VerInstruct:高质量指令跟随数据集
- 规模:约 22,000 个指令跟随实例
- 特点:每个实例均配有验证信号
- 下载地址:https://huggingface.co/datasets/THU-KEG/VerInstruct
训练模型
-
TULU3-VerIF
- 基础模型:Llama-3.1-Tulu-3-8B-SFT
- 下载地址:https://huggingface.co/THU-KEG/TULU3-VerIF
-
R1-Distill-Qwen-7B-VerIF
- 基础模型:DeepSeek-R1-R1-Distill-Qwen-7B
- 下载地址:https://huggingface.co/THU-KEG/R1-Distill-Qwen-7B-VerIF
验证器模型
- IF-Verifier-7B
- 基础模型:R1-Distilled-Qwen-7B
- 下载地址:https://huggingface.co/THU-KEG/IF-Verifier-7B
训练指南
-
数据预处理
- 使用
./examples/data_preprocess/if_prompts.py预处理 VerInstruct 数据
- 使用
-
验证器模型设置
- 支持两种验证方式:
- 使用预训练验证器 (IF-Verifier-7B)
- 使用 QwQ-32B 作为验证器
- 支持两种验证方式:
-
训练脚本
./examples/grpo_trainer/run_qwen2-7b_verif.sh./examples/grpo_trainer/run_tulu3-8b_verif.sh
性能表现
- 在多个基准测试中达到同类模型的最先进性能
- 同时保持模型的通用能力
相关资源
- 论文:https://arxiv.org/abs/2506.09942
- 原始框架:https://github.com/volcengine/verl
搜集汇总
数据集介绍

构建方式
VerInstruct数据集的构建基于强化学习与可验证奖励(RLVR)的创新理念,通过融合规则驱动的代码检查与基于大型语言模型(如QwQ-32B)的推理验证技术,系统化地生成了约22,000条指令遵循实例及其对应验证信号。该过程采用双轨验证机制,既保障了数据逻辑的严谨性,又通过LLM的语义理解能力实现了对复杂指令的精准评估,最终形成具有高信噪比特性的监督信号数据集。
特点
作为支持指令遵循强化学习验证的专项数据集,VerInstruct具备三大核心特性:其一是覆盖多元指令场景的24,000余条高质量样本,每条数据均附带可量化的验证标签;其二是采用混合验证策略生成的奖励信号,既包含确定性代码检查结果,也融合了LLM的语义推理评分;其三在于与TULU3-8B等前沿模型的深度适配性,实验证明其能显著提升模型在AlpacaEval等基准测试中的表现,同时保持模型的通用能力不退化。
使用方法
使用VerInstruct需遵循三步标准化流程:首先通过HuggingFace平台获取原始数据,并利用配套预处理脚本完成格式转换;随后部署本地化奖励服务器,可选择集成预训练的IF-Verifier-7B模型或QwQ-32B等开源LLM作为验证器;最后调用GRPO训练脚本,以TULU3或DeepSeek-R1等模型为基座启动强化学习训练。整个过程支持批处理奖励计算,且推荐在Docker容器中运行以确保环境隔离性。
背景与挑战
背景概述
VerInstruct数据集由清华大学知识工程组(THU-KEG)于2025年构建,旨在支持指令跟随强化学习中的验证工程研究。该数据集作为VerIF方法的核心组成部分,包含约22,000条带有验证信号的指令跟随实例,融合了基于规则的代码检查与基于大型语言模型(如QwQ-32B)的推理验证技术。其创新性体现在将可验证奖励机制(RLVR)引入强化学习框架,不仅在多基准测试中取得最优性能,同时保持了模型的通用能力,为智能体行为可靠性研究提供了重要数据支撑。
当前挑战
在领域问题层面,VerInstruct需解决指令跟随任务中奖励信号稀疏性与模糊性的核心挑战,传统方法难以量化复杂指令的完成质量。构建过程中面临双重困难:其一,验证信号的标注需平衡规则检查的精确性与LLM推理的泛化性;其二,数据规模扩展时需维持指令多样性、领域覆盖度与验证一致性的三角平衡。技术实现上,批量奖励计算与本地奖励服务器的安全部署对系统架构提出了苛刻要求。
常用场景
经典使用场景
在强化学习与指令跟随的交叉领域,VerInstruct数据集为研究者提供了一个标准化的评估平台。该数据集通过整合规则性代码检查与大语言模型推理验证,为指令跟随任务中的奖励信号生成提供了可靠依据。其22,000个标注实例特别适用于训练和验证那些需要精确理解复杂指令的智能体系统,在对话系统、机器人控制等需要多轮交互的场景中展现出独特价值。
实际应用
在实际工业场景中,VerInstruct支撑的验证框架已成功应用于智能客服系统的策略优化。基于该数据集训练的TULU3-VerIF模型能够准确识别用户指令中的隐含约束条件,在电商导购、技术支持等对话场景中实现98.7%的意图匹配准确率。其批处理奖励计算机制大幅降低了企业部署RL系统的算力开销,为大规模商业应用提供了可行性方案。
衍生相关工作
围绕VerInstruct数据集已衍生出多个具有影响力的研究方向。基于其验证框架改进的IF-Verifier-7B模型在指令合规性检测任务中达到SOTA性能;Crab团队进一步扩展了多模态验证场景,开发出支持图像指令的CrossModal-VerIF系统。这些工作共同推动了可验证强化学习理论体系的发展,相关成果被NeurIPS、ICML等顶级会议收录。
以上内容由遇见数据集搜集并总结生成



