five

Nemotron-CrossThink

收藏
Hugging Face2025-05-01 更新2025-05-02 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-CrossThink
下载链接
链接失效反馈
官方服务:
资源简介:
Nemotron-CrossThink是一个多领域强化学习数据集,旨在提高大型语言模型在通用和数学推理方面的能力。数据集包含两部分:Nemotron-CrossThink-QA和Nemotron-CrossThink-Math,分别涵盖问题答案对和数学问题。数据集通过合成的方式构建,并使用结构化模板和过滤技术来保证数据的质量和多样性。
提供机构:
NVIDIA
创建时间:
2025-05-01
原始信息汇总

Nemotron-CrossThink 数据集概述

基本信息

  • 名称: Nemotron-CrossThink
  • 作者: Syeda Nahida Akter, Shrimai Prabhumoye, Matvei Novikov, Seungju Han, Ying Lin, Evelina Bakhturina, Eric Nyberg, Yejin Choi, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro
  • 所有者: NVIDIA Corporation
  • 创建日期: 2024年9月20日
  • 版本: v1
  • 许可证: CC-BY-4.0
  • 语言: 英语 (en)
  • 大小: 10M < n < 100M
  • 任务类别: 问答、文本生成
  • 标签: text, nvidia

数据集描述

Nemotron-CrossThink 是一个多领域强化学习数据集,旨在提升大型语言模型(LLMs)的通用推理和数学推理能力。数据集包含高质量的问题-答案对及详细推理轨迹,数据来源于CommonCrawl和高质量书籍。

数据集组成

  • Nemotron-CrossThink-QA: 从CommonCrawl和开放领域书籍构建的问题-答案对,涵盖物理、法律、社会科学、经济学等多个学科,包含多选题和开放式问题格式。
  • Nemotron-CrossThink-Math: 从CommonCrawl提取角色并生成多样化数学问题,强调多步符号推理和思维链生成。

数据准备

  • 多领域整理: 从CommonCrawl和开放QA基准收集多样化的推理数据。
  • 模板标准化: 应用结构化模板(多选题、开放式)统一问题/答案格式。
  • 可验证性过滤: 移除不可验证的样本以确保稳定的强化学习训练。
  • 数据混合: 设计数学和通用推理数据的混合以研究其对模型泛化的影响。

数据集字段

  • data_source: Nemotron-CrossThink-QA 或 Nemotron-CrossThink-Math
  • prompt: 包含通用指令和问题
  • reward_model: 包含真实解决方案和评估风格
  • meta_data: 包含数据样本索引和分割类型(train/test),数学版本还包括用于整理数据的角色和技能。

数据集量化

  • 记录数: 287,376 QA对
  • 特征数: 2(Nemotron-CrossThink-QA 和 Nemotron-CrossThink-Math)
  • 总存储大小: 638MB
  • 下载大小: 614474602 bytes
  • 数据集大小: 614474602 bytes

关键见解

  • 在数学和非数学推理基准上均表现出改进的准确性。
  • 生成正确答案的平均令牌使用量减少28%,显示出更集中和有效的推理。

使用条款

  • 许可证: 知识共享署名4.0国际许可协议(CC BY 4.0)
  • 使用限制: 如果用于创建、训练或改进AI模型,可能需遵守Qwen许可协议的再分发和使用要求。

引用

bibtex @misc{akter2025nemotroncrossthinkscalingselflearningmath, title={NEMOTRON-CROSSTHINK: Scaling Self-Learning beyond Math Reasoning}, author={Syeda Nahida Akter and Shrimai Prabhumoye and Matvei Novikov and Seungju Han and Ying Lin and Evelina Bakhturina and Eric Nyberg and Yejin Choi and Mostofa Patwary and Mohammad Shoeybi and Bryan Catanzaro}, year={2025}, eprint={2504.13941}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2504.13941}, }

搜集汇总
数据集介绍
main_image_url
构建方式
Nemotron-CrossThink数据集的构建过程体现了多领域协同的严谨性。研究团队从CommonCrawl和开放域书籍中精选原始数据,通过学科分类模板(受MMLU-Pro启发)构建问答对,覆盖物理、法律等多元学科。数学推理部分则采用PersonaMath方法,基于技能提取和人格化提示生成多样化数学问题。数据经过模板标准化处理,统一为多选题和开放式两种可验证格式,并通过严格过滤机制剔除不可验证样本,最终形成包含28万条高质量样本的混合数据集。
使用方法
使用者可通过HuggingFace平台获取数据集JSONL格式文件,包含QA和Math两个子集。每个样本包含prompt指令、奖励模型评估标准和元数据三部分结构。建议采用分组相对策略优化(GRPO)进行强化学习训练,通过混合加载不同领域数据研究协同效应。需注意数学子集使用时需遵守Qwen模型许可协议,且推荐配合原始论文提供的验证基准(如AMC、AGIEval等)进行效果评估,以全面检验模型的多维推理能力。
背景与挑战
背景概述
Nemotron-CrossThink是由NVIDIA公司于2024年9月发布的多领域强化学习数据集,旨在提升大型语言模型在通用推理和数学推理方面的能力。该数据集由Syeda Nahida Akter等研究人员主导开发,整合了来自CommonCrawl和高质量书籍的优质问答对,并辅以详细的推理轨迹。其设计灵感源自MMLU-Pro和PersonaMath等先进方法,特别关注STEM、人文学科和数学问题解决等领域的多样化可验证推理示例。作为首个将通用推理与数学推理系统整合的强化学习数据集,Nemotron-CrossThink在MMLU-Pro、GPQA等基准测试中展现出12.8%-30.1%的显著性能提升,为跨领域推理研究提供了新的范式。
当前挑战
该数据集面临的核心挑战主要体现在两个维度:领域问题层面,如何平衡通用推理与专业数学推理的协同效应成为关键,现有方法往往难以同时优化两种推理模式的表征学习;数据构建层面,从异构数据源(CommonCrawl与专业书籍)提取可验证推理轨迹存在固有难度,需要设计复杂的模板标准化流程和严格的过滤机制。特别是数学推理部分,需通过Persona技术从原始文本提取数学技能并生成多样化问题,这对数据质量控制提出了更高要求。此外,强化学习训练中的奖励建模需要确保不同领域样本的可比性,这对数据混合策略的设计构成了显著挑战。
常用场景
经典使用场景
在人工智能领域,Nemotron-CrossThink数据集被广泛用于提升大型语言模型的多领域推理能力。该数据集通过精心设计的问答对和数学问题,为模型训练提供了丰富的推理轨迹,尤其在STEM、人文科学和数学问题解决等跨学科领域展现出卓越的应用价值。研究者通常利用该数据集进行强化学习训练,以优化模型在复杂推理任务中的表现。
解决学术问题
Nemotron-CrossThink数据集有效解决了当前语言模型在跨领域推理中的关键挑战。通过提供高质量、可验证的推理示例,该数据集显著提升了模型在数学推理(如Math-500和AMC基准)和通用推理(如MMLU-Pro和AGIEval基准)任务中的准确率。同时,其优化的响应效率使得模型能够以更少的计算资源生成更精确的答案,为推理能力的量化研究提供了可靠基准。
实际应用
在实际应用中,Nemotron-CrossThink数据集为开发智能教育助手和专业领域问答系统提供了重要支持。教育科技公司可利用其数学推理模块构建自适应学习系统,而法律、经济等领域的专业机构则能基于通用推理模块开发高效的知识问答工具。数据集的多格式设计(选择题和开放式问题)使其能灵活适应不同应用场景的需求。
数据集最近研究
最新研究方向
随着大语言模型在复杂推理任务中的广泛应用,Nemotron-CrossThink数据集通过融合多领域强化学习范式,为提升模型的泛化能力提供了新的研究路径。该数据集巧妙整合了数学推理与通用问答数据,采用结构化模板和可验证奖励机制,显著提升了模型在STEM、人文等跨学科任务中的表现。最新研究表明,基于该数据集训练的模型在Math-500和AMC等数学基准上准确率提升超过27%,同时在MMLU-Pro等通用推理任务中实现12.8%的性能突破。其创新的Group Relative Policy Optimization方法不仅优化了推理效率,更将响应令牌消耗降低28%,为构建高效能推理系统提供了实证基础。当前研究热点集中于如何利用其混合数据架构,进一步探索数学符号推理与语义理解的协同效应,这对开发具有人类级认知深度的AI系统具有重要启示意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作