RECAST-30K
收藏github2026-02-28 更新2026-03-01 收录
下载链接:
https://github.com/Thekey756/RECAST
下载链接
链接失效反馈官方服务:
资源简介:
RECAST-30K是一个高质量的30K多约束指令跟随训练数据集,用于模型微调,旨在扩展LLMs在遵循多约束复杂指令方面的能力。
RECAST-30K is a high-quality 30K-sample multi-constraint instruction-following training dataset for model fine-tuning, which aims to enhance the capabilities of Large Language Models (LLMs) in complying with complex multi-constraint instructions.
创建时间:
2026-02-26
原始信息汇总
RECAST 数据集概述
数据集简介
RECAST 是一个用于扩展大型语言模型遵循包含多重约束的复杂指令能力的高效、可扩展框架。该框架旨在解决当指令中明确声明的需求数量增加(特别是超过10个约束)时,模型难以准确遵循指令的挑战。
核心组件
1. 数据集构成
- RECAST-30K: 一个包含30,000个实例的高质量多约束指令遵循训练数据集,用于模型微调。
- RECAST-Test 测试集: 四个难度递增的领域内测试集,分别包含5、10、15及全部约束。
2. 数据集详情
- RECAST-30K:
- 规模: 30,000个实例。
- 约束类型: 涵盖19种以上类型,包括格式、内容、推理、安全性和领域特定要求。
- 特点: 约束提取自真实的提示-响应对,确保实际应用性;每个约束都配备了验证器(定量约束使用基于规则的验证器,定性约束使用基于LLM的验证器)。
- RECAST-Test 测试集:
- RECAST-Test-5: 5个约束,498个样本,用于基础能力评估。
- RECAST-Test-10: 10个约束,498个样本,用于标准复杂度评估。
- RECAST-Test-15: 15个约束,500个样本,用于高级能力测试。
- RECAST-Test-All: 全部约束,500个样本,用于最高难度挑战。
3. 文件结构
数据集文件位于 dataset/ 目录下:
RECAST-30K.jsonRECAST-Test_5_constraints.jsonRECAST-Test_10_constraints.jsonRECAST-Test_15_constraints.jsonRECAST-Test_all_constraints.json
评估与代码
- 评估管道: 提供
code/evaluate.py用于评估模型遵循复杂指令的能力,支持自动约束验证(定量约束使用基于规则的验证,定性约束使用基于LLM的验证)。 - 约束模板:
code/template.py提供用于定义基于规则的约束的结构化模板。 - 工具函数:
code/util.py包含约束验证的核心工具,支持多语言文本处理。
用途与目的
- 模型微调: 使用 RECAST-30K 数据集微调模型,以系统性提升其处理复杂、多约束场景的能力。
- 性能评估: 使用 RECAST-Test 测试集在不同难度级别上评估模型的复杂指令遵循能力。
- 强化学习: 可验证的约束设计支持奖励函数设计,可用于基于强化学习的进一步优化。
相关资源
- 论文: "RECAST: Expanding the Boundaries of LLMs Complex Instruction Following with Multi-Constraint Data",已被 ICLR 2026 接收。
- 在线资源:
- 论文地址: https://arxiv.org/abs/2505.19030
- 模型地址: https://huggingface.co/wenhaoliu123
- 数据集地址: https://huggingface.co/datasets/zk-guo/RECAST-30K/blob/main/RECAST-30K.json
许可信息
本项目采用 Apache License 2.0 许可证。
搜集汇总
数据集介绍
构建方式
在大型语言模型遵循复杂指令的研究领域,RECAST-30K数据集的构建采用了系统化的合成框架。该方法从现实世界的提示-响应对中提取了超过19种约束类型,确保了数据来源的实用性与相关性。通过精心设计的流程,生成了包含30,000个实例的高质量训练集,每个实例都整合了远超现有基准的约束数量,旨在系统性提升模型处理多约束复杂指令的能力。
特点
该数据集的核心特点在于其挑战性与实用性。它突破了传统数据集的限制,包含了远超10个约束的指令实例,为模型评估设立了新的难度标杆。数据集覆盖格式、内容、推理、安全及领域特定需求等多元约束类型,并配备了可验证的设计,为定量约束提供基于规则的验证器,为定性约束提供基于大语言模型的验证器。这种结构使其天然适用于强化学习的奖励函数设计。
使用方法
使用该数据集主要涉及评估与微调两个环节。研究人员可利用提供的评估代码,通过API连接待测模型,在包含5、10、15及全部约束的渐进式测试集上进行系统性评测。对于模型能力提升,建议使用LLaMA-Factory等工具在RECAST-30K数据集上进行微调。使用前需注意替换测试集中预设的响应字段,以准确评估目标模型的真实性能。
背景与挑战
背景概述
随着大型语言模型在遵循简单指令方面取得显著进展,其在处理包含多重约束的复杂指令时仍面临显著瓶颈。RECAST-30K数据集由研究团队于2025年提出,旨在系统性地拓展模型对复杂指令的遵循能力。该数据集构建了一个包含超过19种约束类型、共计三万条实例的高质量训练集,其核心研究问题聚焦于当显式约束数量超过十个时,模型性能的急剧下降。通过从真实世界提示-响应对中提取约束,RECAST-30K不仅增强了模型应对现实复杂任务的能力,也为指令遵循领域设立了新的评估基准,推动了相关研究向更高阶、更实用的方向发展。
当前挑战
RECAST-30K数据集致力于解决大型语言模型在复杂指令遵循任务中的核心挑战,即模型难以同时满足指令中蕴含的多个、异质的约束条件。具体而言,当约束数量超过十个时,模型往往出现遗漏、误解或混淆,导致输出无法完全符合要求。在数据集构建过程中,挑战主要源于如何系统性地合成涵盖格式、内容、推理与安全等多元约束的高质量数据,并确保其真实性与可验证性。此外,为每种约束设计自动化的验证机制,特别是为定性约束开发可靠的基于大模型的评估器,同样构成了重大的技术难题。
常用场景
经典使用场景
在自然语言处理领域,大型语言模型处理复杂多约束指令的能力是衡量其智能水平的关键指标。RECAST-30K数据集通过提供包含19种以上约束类型、单指令约束数量远超现有基准的30,000个训练实例,成为评估和提升模型复杂指令遵循能力的经典工具。研究者通常将其应用于模型微调,系统性地增强模型在同时满足格式、内容、推理、安全等多维度要求时的表现,特别是在约束数量超过10个的高难度场景下,该数据集能够有效检验模型的综合理解与执行能力。
衍生相关工作
围绕RECAST-30K数据集,已衍生出一系列专注于提升模型约束遵循能力的经典研究工作。其提供的可自动验证的约束体系,直接促进了基于强化学习的奖励函数设计,使研究者能够利用约束满足度作为奖励信号对模型进行进一步优化。同时,该数据集的构建方法论——即从真实数据中系统化提取与合成多约束指令——也为后续构建更复杂、更贴近特定垂直领域(如法律、医疗)的指令遵循数据集提供了可复现的框架与灵感。
数据集最近研究
最新研究方向
在大型语言模型指令遵循能力的研究领域,RECAST-30K数据集的推出标志着对模型处理复杂、多约束指令能力的系统性探索进入新阶段。该数据集聚焦于突破现有基准测试中约束数量通常少于10个的局限,通过引入涵盖格式、内容、推理等19种以上约束类型的高质量合成数据,直接应对模型在现实应用中需同时满足大量明确要求的挑战。其前沿研究方向紧密关联于提升模型的实际部署效能,通过可自动验证的约束设计,不仅为监督微调提供了精准的训练资源,更为基于强化学习的奖励函数设计开辟了新路径,推动了模型在复杂任务中可靠性与泛化能力的协同进化,对下一代智能体与AI助手的发展具有奠基性意义。
以上内容由遇见数据集搜集并总结生成



