VERINSTRUCT

Name: VERINSTRUCT
Creator: 清华大学计算机科学与技术系
Published: 2025-06-12 01:10:36
License: 暂无描述

arXiv2025-06-12 更新2025-06-13 收录

下载链接：

https://github.com/THU-KEG/VerIF

下载链接

链接失效反馈

官方服务：

资源简介：

VERINSTRUCT数据集是由清华大学计算机科学与技术系的研究团队构建的，包含大约22,000个带有验证信号的指令跟随实例。数据集的构建过程包括两个主要步骤：指令构造和验证生成。指令构造使用了约束回译方法来生成具有多个约束的复杂指令。验证生成则针对硬约束使用代码验证，对软约束使用大型推理模型进行在线验证。数据集旨在支持指令跟随中的强化学习，并已应用于多个模型，取得了显著的效果。

The VERINSTRUCT dataset was constructed by a research team from the Department of Computer Science and Technology, Tsinghua University. It contains approximately 22,000 instruction-following instances with validation signals. The dataset construction consists of two core steps: instruction construction and validation generation. For instruction construction, a constrained back-translation method is employed to generate complex instructions with multiple constraints. For validation generation, code verification is used for hard constraints, while large-scale reasoning models are applied for online validation of soft constraints. This dataset is designed to support reinforcement learning in instruction-following tasks, and has been applied to multiple models with significant performance achieved.

提供机构：

清华大学计算机科学与技术系

创建时间：

2025-06-12

原始信息汇总

VerIF数据集概述

数据集简介

名称：VerIF (Verification Engineering for RL in Instruction Following)
核心方法：结合基于规则的代码检查和基于LLM的推理验证（如QwQ-32B），为指令跟随强化学习提供可验证的奖励信号
相关论文：VerIF: Verification Engineering for Reinforcement Learning in Instruction Following

数据集内容

VerInstruct数据集：
- 包含约24,000个指令跟随实例
- 每个实例均配有验证信号
- 访问地址：https://huggingface.co/datasets/THU-KEG/VerInstruct

训练模型

TULU3-VerIF：
- 基于Llama-3.1-Tulu-3-8B-SFT
- 访问地址：https://huggingface.co/THU-KEG/TULU3-VerIF
R1-Distill-Qwen-7B-VerIF：
- 基于DeepSeek-R1-R1-Distill-Qwen-7B
- 访问地址：https://huggingface.co/THU-KEG/R1-Distill-Qwen-7B-VerIF
验证器模型：
- IF-Verifier-7B
- 访问地址：https://huggingface.co/THU-KEG/IF-Verifier-7B

训练指南

数据预处理：
- 使用./examples/data_preprocess/if_prompts.py预处理VerInstruct数据
验证器设置：
- 支持使用IF-Verifier-7B或QwQ-32B作为验证器
训练脚本：
- ./examples/grpo_trainer/run_qwen2-7b_verif.sh
- ./examples/grpo_trainer/run_tulu3-8b_verif.sh

性能表现

在多个基准测试中达到同类模型的最优性能
同时保持模型的通用能力

致谢

基于verl框架开发
数据来源于Crab团队

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，指令遵循能力的评估日益受到关注。VERINSTRUCT数据集的构建采用了创新的约束反译方法，通过从Alpaca GPT-4、Orca Chat等高质量数据源中采样25,000个实例，利用Llama3.1-70B-Instruct模型隐式提取响应中蕴含的约束条件。针对长度等硬约束，研究团队开发了Python脚本进行自动化合成，最终将生成的约束与原始指令融合，形成包含平均6.2个约束的复杂指令。验证信号的构建则采用差异化策略：硬约束通过Qwen2.5-72B-Instruct生成可执行验证代码，软约束则标注为需在线验证的语义类型。

特点

该数据集的核心价值体现在其多维度的验证体系设计。22,000个实例中包含77.7%需语义理解的软约束（格式、内容、风格）和22.3%可规则验证的硬约束（长度、关键词），这种混合验证机制有效模拟了真实场景中的复杂指令环境。每个实例均配备精确的验证信号，其中硬约束验证代码经过人工校验确保零错误率，而软约束验证则依托大语言模型的推理能力实现动态评估。数据统计分析显示，约束数量呈正态分布，多数指令包含4-8个约束，为模型提供了渐进式难度训练样本。

使用方法

该数据集专为强化学习训练场景优化设计。研究者可采用GRPO算法，以16次rollout进行价值估计，通过VERIF验证系统实时获取奖励信号。硬约束通过预生成代码实现毫秒级验证，软约束则批量输入大语言模型进行并行评估以提升效率。实践表明，在VeRL框架下，该数据集能使模型在200训练步内快速收敛，在IFEval等基准测试中显著提升表现。针对资源受限场景，建议采用蒸馏得到的IF-Verifier-7B替代大型验证模型，可降低80%计算开销同时保持90%以上验证准确率。

背景与挑战

背景概述

VERINSTRUCT数据集由清华大学知识工程组（KEG）于2025年6月发布，旨在解决强化学习在指令跟随任务中的验证工程挑战。该数据集包含约22,000个带有验证信号的指令实例，通过结合基于规则的代码验证和基于大型推理模型（如QwQ-32B）的语义验证，显著提升了语言模型在复杂指令跟随任务中的表现。VERINSTRUCT的构建采用了约束反翻译技术，从Alpaca GPT4、Orca Chat等高质量数据源中提取多类型约束，推动了指令跟随领域从监督微调向强化学习范式的转变。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决多模态约束（如硬性长度要求与软性语义风格）的协同验证难题，传统方法难以平衡规则验证与语义理解的精度；在构建层面，面临约束自动生成的可靠性问题（如LLM对数值约束的固有缺陷），以及大规模语义验证带来的计算成本压力。特别是软约束验证需要依赖高性能推理模型，导致数据构造效率与模型泛化能力之间存在显著权衡。

常用场景

经典使用场景

在自然语言处理领域，VERINSTRUCT数据集被广泛应用于强化学习框架下的指令跟随任务优化。该数据集通过整合规则验证与基于大语言模型的语义验证，为研究者提供了评估模型在复杂约束条件下生成响应能力的标准化工具。其典型应用场景包括多轮对话系统、任务导向型对话代理的开发，以及需要精确遵循结构化指令的文本生成任务。

实际应用

在实际应用中，该数据集支撑了智能客服系统的指令理解模块开发，显著提升了系统对用户复杂需求的响应准确率。教育科技领域利用其构建的自动作文评分系统，能够同时检测字数要求（硬约束）和文体特征（软约束），在K12语言教学中实现了更全面的写作能力评估。

衍生相关工作

基于VERINSTRUCT的验证框架衍生出多个重要研究方向，包括TULU 3采用的混合验证策略、DeepSeek-R1的蒸馏验证器开发等。这些工作进一步推动了约束感知生成模型的发展，其中AutoIF系统通过自动化验证代码生成，将数据集应用扩展到金融合规文本生成等高风险领域。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集