guru_RL
收藏Hugging Face2025-06-03 更新2025-06-04 收录
下载链接:
https://huggingface.co/datasets/LLM360/guru_RL
下载链接
链接失效反馈官方服务:
资源简介:
GURU是一个精心策划的跨领域数据集,专为训练大型语言模型处理复杂的推理任务而设计。包含91.9K个高质量样本,覆盖数学、编程、科学、逻辑、模拟和表格推理六个领域,每个样本都经过质量过滤,并配备了自动验证机制,适合用于强化学习应用。
创建时间:
2025-06-03
搜集汇总
数据集介绍

构建方式
在复杂推理任务领域,Guru数据集通过五阶段筛选流程构建而成,从原始68.4万样本中精选出9.19万高质量样本。该流程涵盖数学、编程、科学等六大领域的数据整合,采用去重机制与启发式过滤确保数据纯度,并为每个样本配置领域特定的奖励函数验证机制,最终形成具有明确难度分级的跨领域推理数据集。
特点
该数据集的核心价值体现在其跨领域覆盖广度与结构化设计上,囊括数学推导、代码生成、科学问答等六类推理场景。每个样本均标注了对应的推理能力类型及模型通过率指标,并通过extra_info字段保留任务相关的辅助信息。数据以Parquet格式存储,支持高效的批量处理,同时reward_model字段为强化学习训练提供可量化的评估依据。
使用方法
研究者可通过加载Parquet文件直接获取结构化数据,其中prompt字段包含对话格式的输入序列,apply_chat_template标志支持快速适配聊天模型。使用时应结合data_source字段调用对应的奖励函数进行验证,qwen系列模型的通过率指标可作为基线参考。对于特定领域任务,extra_info与reward_model字段能辅助构建定制化的强化学习训练流程。
背景与挑战
背景概述
随着大语言模型在复杂推理任务中的广泛应用,跨领域推理能力的系统性训练成为研究焦点。Guru数据集于2025年由Zhoujun Cheng等学者联合构建,旨在通过强化学习框架提升模型在数学、编程、科学等六大领域的推理性能。该数据集整合了来自OR1、LeetCode、ARC-AGI等权威资源的9.19万条样本,通过五阶段质量筛选流程确保数据多样性与可验证性,为多模态推理研究提供了标准化基准。
当前挑战
在解决跨领域推理问题时,模型需应对数学符号推导、代码逻辑模拟等异构任务的泛化挑战,同时避免领域偏差导致的性能波动。数据集构建过程中,研究者面临原始数据质量参差、多源数据格式对齐困难,以及自动化奖励函数设计的复杂性。此外,保持科学问题与逻辑谜题等领域的难度平衡,需通过动态过滤机制与领域专属验证策略实现。
常用场景
经典使用场景
在大型语言模型推理能力研究领域,Guru数据集为强化学习训练提供了跨领域的基准平台。该数据集通过整合数学、编程、科学、逻辑、模拟和表格推理六大核心领域,构建了覆盖9.1万条高质量样本的评估体系。研究者可借助其内置的领域特定奖励函数,系统评估模型在复杂推理任务中的泛化性能,特别是在多步骤问题求解和符号推理场景下展现独特价值。
实际应用
在实际应用层面,Guru数据集支撑了智能教育系统和专业辅助工具的研发。教育科技企业可基于其科学推理模块开发自适应学习系统,而金融数据分析领域则能利用表格推理组件优化决策支持流程。数据集提供的自动化验证机制显著降低了现实场景中模型部署的调试成本,为产业界的推理引擎优化提供了可靠的数据基础设施。
衍生相关工作
该数据集的发布催生了多项创新性研究,特别是在强化学习与推理模型的融合方向。相关团队基于其多领域架构开发了分层奖励机制,启发了后续关于课程学习策略的探索。在代码推理领域,衍生出的动态验证方法显著提升了程序合成任务的可靠性,而表格数据处理模块则推动了结构化知识提取技术的新发展。
以上内容由遇见数据集搜集并总结生成



