Nemotron-RL-Instruction-Following-Calendar-v2
收藏Hugging Face2026-03-11 更新2026-03-13 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-RL-Instruction-Following-Calendar-v2
下载链接
链接失效反馈官方服务:
资源简介:
Calendar-Scheduling-Dataset 是一个多轮对话数据集,旨在理解自然语言中的日程安排约束,跨多轮消息遵循指令,推断日程冲突并同时满足多个约束条件。每个事件都有关于持续时间(如45分钟)和时间(如应在下午3点后安排)的约束。用户以自然对话形式随机提及事件及相关约束,助手需根据对话中提到的所有约束来安排/重新排序事件。数据集生成过程包括:基于Nemotron-Personas-USA数据集生成种子角色及其对应的事件列表;为每个事件随机生成持续时间和约束;使用LLM模拟用户角色生成合成用户消息,以随机顺序在多轮对话中传达事件和约束;使用合成用户消息提示目标模型,直到所有轮次完成或模型响应违反先前提到的约束;最后移除最后一轮助手响应形成最终数据集。每个样本包含一个以用户轮次结束的多轮对话,以及一个exp_cal_state字段,其中包含日历中的事件及相关约束,可用于验证。该数据集可用于模型在用户日历中安排多个事件。数据集作为NVIDIA NeMo Gym框架的一部分发布,包含9659个训练样本和256个验证样本,总计9915个样本,采用CC-BY 4.0许可,可用于商业用途。
提供机构:
NVIDIA
创建时间:
2026-03-06
搜集汇总
数据集介绍
构建方式
在日程规划领域,Nemotron-RL-Instruction-Following-Calendar-v2数据集的构建采用了多阶段合成生成策略。该过程始于从Nemotron-Personas-USA数据集中选取种子人物角色,并据此生成一系列与之相关的事件名称。随后,通过随机分布采样为每个事件分配持续时间与时间约束条件。利用大型语言模型模拟用户行为,依据设定的人物角色,以自然对话形式在多轮交互中随机顺序传达事件及其约束。最终,通过目标模型生成回应,并在满足所有约束或出现违规时截断对话,移除最后一轮助手回复以形成最终数据集样本,每个样本均包含多轮对话及用于验证的日历状态信息。
特点
该数据集的核心特征在于其高度结构化的多轮对话设计,专注于自然语言日程安排与约束理解。每个对话样本均模拟真实用户交互场景,要求模型能够解析随机提及的事件时长与时间限制,识别潜在冲突,并协同满足多项约束条件。数据集提供了明确的日历状态字段,便于对模型输出进行精确验证,确保了任务的可评估性与可靠性。作为NVIDIA NeMo Gym框架的一部分,该数据集专为强化学习环境定制,支持从可验证奖励中进行模型训练,体现了其在指令跟随与复杂规划任务中的实用价值。
使用方法
该数据集主要应用于大型语言模型的后期训练与强化学习环境构建。用户可通过NeMo Gym框架加载数据集,利用其多轮对话结构训练模型理解自然语言调度指令、处理时序约束与解决冲突的能力。每个样本以用户轮次结束的设计,促使模型生成符合所有给定约束的日程安排方案。开发者可借助日历状态字段对模型输出进行自动化验证,从而评估其指令跟随的准确性与逻辑一致性。该数据集适用于商业场景,为开发智能日程助手或增强模型多步推理能力提供了高质量的训练资源。
背景与挑战
背景概述
在人工智能领域,自然语言理解与指令跟随能力的提升是推动智能助手发展的核心驱动力。Nemotron-RL-Instruction-Following-Calendar-v2数据集由NVIDIA公司于2026年3月11日发布,作为NeMo Gym框架的重要组成部分,旨在通过强化学习环境训练大型语言模型。该数据集聚焦于多轮对话中的日程安排任务,模拟真实用户以自然语言形式提出包含时间与时长约束的事件,要求模型能够解析复杂指令、推断潜在冲突并生成满足所有约束的日程方案。其构建基于Nemotron-Personas-USA数据集生成的人物角色,采用合成数据方法,通过大语言模型模拟用户交互,为日程规划领域的指令跟随研究提供了高质量、可验证的基准数据,对推进对话式人工智能的实用化具有显著影响力。
当前挑战
该数据集致力于解决自然语言处理中复杂约束下的日程安排问题,其核心挑战在于模型需在多轮对话中准确理解分散提及的事件约束,并动态整合时序、时长等多元条件以生成无冲突方案。这要求模型具备强大的上下文推理、逻辑一致性维护以及跨轮次信息融合能力。在构建过程中,挑战主要体现为合成数据的真实性与复杂性平衡:如何通过大语言模型生成符合人物角色、约束分布随机且对话流自然的用户消息,同时确保数据质量足以支持强化学习训练;此外,数据验证机制需精确捕捉模型响应中的约束违反,以形成有效的训练样本,这对自动化流程的设计提出了较高要求。
常用场景
经典使用场景
在自然语言处理与人工智能调度领域,Nemotron-RL-Instruction-Following-Calendar-v2数据集被广泛应用于训练大型语言模型处理多轮对话中的日历安排任务。该数据集通过模拟真实用户与助手之间的交互,要求模型理解自然语言中隐含的时间约束,如事件时长与偏好时段,并在多轮对话中动态调整日程,确保所有约束得到满足。这一场景典型地体现了模型在复杂指令跟随与逻辑推理方面的能力,为智能助理与自动化调度系统的开发提供了关键训练资源。
实际应用
在实际应用中,该数据集直接支持智能日历助理与自动化日程管理系统的开发。例如,在企业办公或个人时间管理场景中,系统可基于用户自然语言输入,自动安排会议、设定提醒并解决时间冲突。数据集的多轮对话格式模拟了真实交互的复杂性,使模型能够适应灵活的用户请求,提升日程安排的效率与用户体验。此外,其在医疗预约、教育课程规划等垂直领域也具有潜在应用价值,推动了任务型对话系统的实用化进程。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在强化学习与指令优化领域。例如,NVIDIA NeMo Gym框架利用该数据集构建了可验证奖励环境,用于训练Nemotron系列模型,提升了模型在约束满足任务中的泛化能力。后续研究进一步探索了多模态日程理解、跨领域约束迁移等方向,扩展了数据集的学术影响力。这些工作共同推动了基于合成数据的对话系统训练范式的发展,为人工智能在复杂决策任务中的应用提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



