OpenR1-Math_scored

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/OpenDataArena/OpenR1-Math_scored

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个经过评分的数学问题数据集，包含220k个数学问题及其模型的响应。每个问题及其响应都被赋予了多维度的评分，用于评估问题的质量和复杂性以及响应的质量和相关性。

创建时间：

2025-07-26

原始信息汇总

OpenR1-Math_scored 数据集概述

数据集来源

本数据集是对原始数据集 open-r1/OpenR1-Math-220k 的评分版本。
评分由 OpenDataArena-Tool 完成。
数据来源于 OpenDataArena 项目。

数据格式

格式：JSON Lines (JSONL)
每行结构：
- instruction：原始指令。
- output：模型响应。
- Q_scores：评估指令的分数字典。
- QA_scores：评估指令-响应对的分数字典。
注意：部分分数可能为 null。

评分维度

问题级评分 (`Q_scores`)

Deita_Complexity：指令复杂度（1-6）。
Thinking_Prob：数学问题的深度推理必要性。
Difficulty：代码或数学问题的难度。
Clarity, Coherence, Completeness, Complexity, Correctness, Meaningfulness：指令的清晰度、逻辑一致性、完整性、复杂性、准确性和实用性。

问题-答案对评分 (`QA_scores`)

Deita_Quality：指令-响应对的整体质量（1-6）。
IFD：指令跟随难度。
Reward_Model：奖励分数。
Fail_Rate：模型失败概率。
Relevance：答案的相关性。
Clarity, Coherence, Completeness, Complexity, Correctness, Meaningfulness：响应的清晰度、逻辑一致性、完整性、复杂性、准确性和价值。
A_Length：响应长度（令牌数）。

数据集访问

使用 🤗 datasets 库加载： python from datasets import load_dataset dataset = load_dataset("OpenDataArena/OpenR1-Math_scored")

相关资源

评分工具：OpenDataArena-Tool
项目主页：OpenDataArena Platform
原始数据集：open-r1/OpenR1-Math-220k

搜集汇总

数据集介绍

构建方式

在数学教育智能化研究领域，OpenR1-Math_scored数据集通过OpenDataArena-Tool自动化评估工具对原始OpenR1-Math-220k数据集进行深度重构。该工具采用模型驱动与LLM-as-Judge双轨评分机制，针对数学问题的指令复杂度、推理深度及应答质量进行多维度量化，最终形成包含指令级与问答对级评分体系的增强版本。

特点

该数据集的核心特征体现在其精细化的评分维度架构。Q_scores字段从认知需求、逻辑严谨性等六个维度评估指令质量，QA_scores字段则通过应答相关性、事实准确性等九项指标衡量问答匹配度。这种双层评估体系不仅涵盖传统的长度统计特征，更创新性地引入失败率预测和指令遵循难度等前瞻性指标。

使用方法

研究者可通过Hugging Face datasets库直接加载该数据集，利用其嵌套式评分结构开展多维分析。每个样本的Q_scores与QA_scores字段提供22项可量化指标，支持基于复杂度的数据筛选、应答质量分层研究等场景，为数学大语言模型的训练优化与评估提供细粒度数据支撑。

背景与挑战

背景概述

数学推理数据集OpenR1-Math_scored由OpenDataArena项目团队于2023年基于原始OpenR1-Math-220k数据集构建而成，其核心研究目标在于通过多维评分体系提升数学问题与模型回答的质量评估精度。该数据集融合了传统启发式指标与前沿大语言模型评判技术，针对数学指令遵循与推理能力构建了标准化评估框架，对推动数学教育智能化与模型对齐研究具有显著影响力。

当前挑战

该数据集致力于解决数学问题自动评分与模型推理能力评估的复杂性挑战，包括数学表达的多义性解析、推理步骤的完整性验证以及跨难度问题的统一度量标准构建。在数据构建过程中，需克服评分维度异构性整合、模型评判一致性保障以及大规模数学文本特征提取等技术难点，同时确保自动化评分与人工评估标准间的语义对齐。

常用场景

经典使用场景

在数学教育智能化研究领域，OpenR1-Math_scored数据集通过多维评分体系为数学问题与解答的质量评估提供了标准化框架。该数据集广泛应用于大语言模型的指令遵循能力测试，研究者通过分析Deita_Complexity和Thinking_Prob等指标，能够精准筛选需要多步推理的高难度数学问题，为模型训练提供层次化的数据支持。

解决学术问题

该数据集有效解决了数学智能辅导系统中自动评估的学术难题，通过量化指标替代主观判断，为教育自然语言处理研究提供了可复现的评估基准。其多维评分体系显著提升了模型响应质量分析的颗粒度，使得研究者能够系统性地探究数学问题复杂度与模型表现之间的关联机制，推动了教育人工智能领域的标准化进程。

衍生相关工作

基于该数据集衍生的经典研究包括数学推理能力的层次化评估框架构建，以及指令遵循难度(IFD)与模型性能关联性分析。多项研究利用其丰富的评分维度开发了新型数据筛选算法，这些工作显著推动了OpenDataArena生态系统中自动化评估工具的发展，并为后续多模态数学数据集的评分标准建立了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集