IF-Verifier-Data
收藏Hugging Face2025-06-12 更新2025-06-13 收录
下载链接:
https://huggingface.co/datasets/THU-KEG/IF-Verifier-Data
下载链接
链接失效反馈官方服务:
资源简介:
本数据集是由清华大学KEG实验室的Hao Peng整理的,包含英语和中文两种语言的对话数据。数据集基于WildChat和InfinityInstruct数据集,并额外生成了约20,000个数据实例,总共收集了大约130,000个指令-回应对以及对应的逐步验证信息。数据集用于训练生成性奖励模型,以辅助指令遵循任务。数据以jsonl格式存储,每个条目包括用户查询和助手回应。
创建时间:
2025-06-12
搜集汇总
数据集介绍

构建方式
在指令跟随验证领域,IF-Verifier-Data的构建采用了多源数据融合与自动化验证相结合的策略。数据集源自WildChat和Infinity-Instruct的复杂指令,通过Qwen2.5-72B-Instruct模型提取约束条件并分类为硬约束与软约束。针对硬约束生成Python验证脚本,并从六个不同模型中随机采样响应,最终利用QwQ-32B模型进行逐步验证,形成约13万条包含指令-响应对及其验证结果的高质量数据。
特点
该数据集显著特点在于其双重语言支持与多层次验证结构。涵盖中英双语指令,确保了跨语言场景的适用性;每条数据均包含原始指令、多模型响应及逐步验证过程,为研究指令遵循的可靠性提供了丰富维度。数据规模达十万级以上,且经过硬软约束分类处理,兼具广度与深度,适用于复杂验证任务的模型训练与评估。
使用方法
数据集以jsonl格式组织,每条记录包含唯一ID和角色对话消息。用户可通过加载标准格式文件,直接用于生成式奖励模型的训练。具体应用中,可提取user查询与assistant响应作为输入输出对,结合附带的验证标签监督模型学习指令遵循的合规性。研究人员亦可依据验证步骤分析模型失败模式,推动指令跟随可靠性的方法创新。
背景与挑战
背景概述
指令跟随验证数据集IF-Verifier-Data由清华大学知识工程实验室(THUKEG)于2025年构建,旨在推动生成式奖励模型在指令跟随任务中的发展。该数据集基于WildChat与Infinity-Instruct原始语料,通过多模型响应采样与验证代码生成技术,构建了约13万条包含指令-响应对及逐步验证逻辑的高质量数据。其创新性地将约束分类与程序化验证相结合,为强化学习在自然语言处理领域的可解释性研究提供了重要支撑。
当前挑战
该数据集核心挑战在于解决指令跟随任务中复杂约束的自动化验证问题,需区分硬约束与软约束并生成对应验证逻辑。构建过程中面临多模型响应一致性控制、验证代码生成的可靠性保障,以及大规模数据标注中的噪声过滤等关键技术难题。此外,如何保持指令多样性同时确保验证标准的普适性,亦是数据集构建的重要挑战。
常用场景
经典使用场景
在指令跟随系统的验证工程领域,IF-Verifier-Data数据集被广泛应用于训练生成式奖励模型。该数据集通过精心构建的指令-响应对及其逐步验证过程,为研究人员提供了评估模型输出是否符合复杂指令约束的标准基准。其多语言特性与高质量标注使其成为验证指令跟随系统可靠性的核心工具,尤其在需要精确判断响应是否满足硬性约束和软性约束的场景中表现卓越。
解决学术问题
该数据集有效解决了指令跟随系统中输出验证的学术难题,为量化评估模型对复杂指令的遵循程度提供了标准化的解决方案。通过引入基于约束分类的验证机制,它不仅推动了生成模型可解释性研究的发展,还为强化学习中的奖励信号设计提供了数据基础。其创新性的验证工程方法显著提升了学术界对指令跟随系统可靠性评估的精度,为构建更安全、更可控的大型语言模型奠定了重要基石。
衍生相关工作
该数据集催生了多个重要研究方向,其中最突出的是VerIF验证工程框架的建立。基于其构建的生成式奖励模型为指令跟随系统的强化学习训练提供了新范式。相关研究进一步拓展到多模态指令验证、跨语言约束满足评估等领域。这些衍生工作不仅深化了对指令跟随机制的理解,还推动了可验证人工智能系统的发展,为构建下一代可信赖的人工智能系统提供了重要技术路径。
以上内容由遇见数据集搜集并总结生成



