THU-KEG/IF-Verifier-Data

Name: THU-KEG/IF-Verifier-Data
Creator: THU-KEG
Published: 2025-06-12 08:03:16
License: 暂无描述

Hugging Face2025-06-12 更新2025-07-05 收录

下载链接：

https://hf-mirror.com/datasets/THU-KEG/IF-Verifier-Data

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于训练遵循指令的生成奖励模型的数据集，包含约13万个指令-响应对以及相应的逐步验证。数据来源于WildChat和InfinityInstruct，经过额外的数据生成和处理，使用多个模型生成响应，并使用QwQ-32B模型进行逐步验证，以确保输出满足指令要求。

This dataset is used for training generative reward models for instruction-following, containing about 130,000 instruction-response pairs along with corresponding step-by-step verifications. The data is sourced from WildChat and InfinityInstruct, and has undergone additional data generation and processing, using multiple models to generate responses and QwQ-32B for step-by-step verification to ensure the output meets the instruction requirements.

提供机构：

THU-KEG

搜集汇总

数据集介绍

构建方式

在指令遵循验证领域，THU-KEG/IF-Verifier-Data的构建体现了严谨的工程化流程。该数据集以WildChat和Infinity-Instruct为原始素材，首先通过Qwen2.5-72B-Instruct模型从指令中提取并分类硬约束与软约束，并为硬约束生成对应的Python验证脚本。为确保样本多样性，研究团队从六个不同的大型语言模型中随机采样生成响应，这些模型包括Llama和Qwen等系列的不同参数规模版本。随后，利用QwQ-32B模型对每一个指令-响应对进行逐步验证，判断响应是否满足指令要求，最终汇集了约13万条带有详细验证过程的配对数据。

使用方法

该数据集主要应用于训练生成式奖励模型，以提升模型在指令遵循任务中的性能。使用者可通过加载JSONL文件直接访问结构化数据，其中每条记录的'messages'字段包含了完整的对话交互序列。研究人员可以基于数据中的'id'、用户查询、模型响应及隐含的验证逻辑，构建监督微调或强化学习训练流程。具体而言，可将指令-响应对作为输入，利用附带的验证信息作为监督信号，训练模型学习遵循复杂指令的内在规律。更详细的应用指南可参考其关联的GitHub代码库与学术论文。

背景与挑战

背景概述

在大型语言模型指令跟随能力评估与优化的研究前沿，清华大学知识工程实验室于2025年推出了IF-Verifier-Data数据集。该数据集由Hao Peng等人主导构建，其核心研究问题聚焦于如何通过可验证的工程化方法，精准评估模型响应与复杂指令约束的符合程度。数据集融合了WildChat与Infinity-Instruct的多样指令，并利用QwQ-32B等先进模型生成逐步验证过程，旨在为训练生成式奖励模型提供高质量、可解释的监督信号，对推动指令跟随的强化学习研究具有重要影响力。

当前挑战

该数据集致力于解决指令跟随评估中模型输出与复杂、多层次约束对齐的挑战，其核心在于将模糊的指令遵循要求转化为可自动化验证的明确标准。在构建过程中，研究团队面临多重挑战：首先，从海量对话中自动化挖掘并分类硬约束与软约束，需要模型具备深度的语义理解与逻辑推理能力；其次，为多样化的硬约束生成准确无误的验证代码脚本，对代码生成模型的可靠性与泛化性提出了极高要求；最后，确保跨多个不同规模与架构的模型所生成响应的评估一致性，亦是保障数据质量的关键难点。

常用场景

经典使用场景

在大型语言模型对齐与指令遵循评估领域，THU-KEG/IF-Verifier-Data数据集为训练生成式奖励模型提供了关键支撑。该数据集通过精心构建的指令-响应对及其对应的逐步验证标注，为模型学习如何精确判断响应是否符合复杂指令约束建立了标准范式。其核心应用场景在于驱动模型深入理解指令中的硬性与软性约束，并通过代码脚本与自然语言推理相结合的方式进行可解释的验证，从而提升模型在开放域对话中的指令遵循能力。

解决学术问题

该数据集直接应对了指令微调后模型行为难以精确评估与优化的核心学术挑战。传统方法常依赖人工标注或简单规则，难以规模化处理复杂、多约束的指令。本数据集通过自动化生成的验证代码与逐步推理，为研究社区提供了大规模、高质量的监督信号，使得训练生成式奖励模型以量化评估指令遵循程度成为可能，从而推动了基于强化学习的对齐方法在可验证性与可解释性方向的发展。

实际应用

在实际应用中，该数据集能够赋能对话系统与智能助手实现更可靠、可控的交互。基于此数据训练的奖励模型，可集成于大语言模型的训练管道中，用于在线或离线的偏好对齐与策略优化，确保模型输出严格遵循用户指令中的安全性、格式、内容等各项要求。这显著提升了AI助手在客服、内容生成、编程辅助等场景下的实用性与信任度，减少了有害或无关内容的产生。

数据集最近研究