Maths-College_scored

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/OpenDataArena/Maths-College_scored

下载链接

链接失效反馈

官方服务：

资源简介：

数学学院问题打分数据集 - 含OpenDataArena评分

创建时间：

2025-07-26

原始信息汇总

Maths-College_scored 数据集概述

数据集来源

本数据集是基于原始数据集 ajibawa-2023/Maths-College 的评分版本。
评分使用 OpenDataArena-Tool 完成。
数据来源于 OpenDataArena 项目。

数据格式

数据集以 JSON Lines (JSONL) 格式提供。
每行数据为一个 JSON 对象，包含以下字段：
- instruction: 原始指令（问题）。
- output: 模型的响应。
- Q_scores: 评估指令（Q）的分数字典。
- QA_scores: 评估指令-响应对（QA）的分数字典。
注意：某些分数可能为 null，表示不适用或未运行该评分器。

评分维度

问题级评分（`Q_scores`）

评估指令的质量和复杂性：

Deita_Complexity: 估计指令复杂性（1-6 分）。
Thinking_Prob: 数学问题的深度推理必要性。
Difficulty: 数学或编程问题的难度。
Clarity、Coherence、Completeness、Complexity、Correctness、Meaningfulness: 评估指令的清晰度、逻辑一致性、完整性、复杂性、准确性和实用性。

问题-答案对评分（`QA_scores`）

评估响应的质量：

Deita_Quality: 估计指令-响应对的整体质量（1-6 分）。
IFD: 指令跟随难度。
Reward_Model: 奖励分数，越高表示响应越优。
Fail_Rate: 模型失败概率（数学问题）。
Relevance: 响应与问题的相关性。
Clarity、Coherence、Completeness、Complexity、Correctness、Meaningfulness: 评估响应的清晰度、逻辑一致性、完整性、复杂性、准确性和价值。
A_Length: 响应长度（以 token 计）。

数据集访问

使用 🤗 datasets 库加载数据集： python from datasets import load_dataset dataset = load_dataset("OpenDataArena/Maths-College_scored")

相关资源

评分工具: OpenDataArena-Tool
OpenDataArena 项目: OpenDataArena Platform
原始数据集: ajibawa-2023/Maths-College

搜集汇总

数据集介绍

构建方式

在数学教育数据智能化评估的背景下，Maths-College_scored数据集基于原始Maths-College数据集，通过OpenDataArena-Tool自动化评估工具进行多维评分构建。该工具融合模型驱动与LLM-as-Judge方法，对指令复杂度、推理需求及响应质量进行量化，形成包含指令级和问答对级评分的结构化数据，确保了评估的全面性与客观性。

特点

该数据集显著特点在于其丰富的多维评分体系，涵盖指令复杂度（Deita_Complexity）、数学问题深度推理（Thinking_Prob）及响应质量（Deita_Quality）等指标。评分分为Q_scores和QA_scores两大维度，既评估指令本身的清晰度、连贯性与正确性，又量化响应与指令的关联性、完备性与事实准确性，为精细化数据分析提供坚实基础。

使用方法

研究人员可通过Hugging Face的datasets库直接加载数据集，利用嵌套的Q_scores和QA_scores字段进行深度分析。该数据集适用于数学问题自动评分、模型响应优化及教育智能化研究，用户可依据具体评分维度筛选样本，或结合OpenDataArena-Tool进一步扩展评估框架，推动数学教育数据的高效利用。

背景与挑战

背景概述

数学推理作为人工智能领域的核心挑战之一，其数据集构建历来受到学术界高度重视。Maths-College_scored数据集源于2023年ajibawa-2023团队创建的大学数学问题集，后经OpenDataArena项目团队采用自动化评估工具进行多维评分增强。该数据集专注于高等数学领域的指令遵循与问题求解能力评估，通过融合模型基评估和LLM-as-Judge双重评分机制，为数学推理模型的高精度训练与验证提供了重要基础设施，显著推动了教育人工智能与认知计算交叉领域的发展。

当前挑战

数学问题求解需应对多步骤推理、符号运算与严格逻辑验证的复合挑战，传统数据集缺乏细粒度质量评估维度。本数据集构建过程中面临双重挑战：在领域问题层面，需精准量化数学指令的认知复杂度与模型响应的事实准确性；在技术实现层面，需协调多种自动化评分工具的一致性，处理数学符号的特殊表征问题，并确保跨维度评分指标的协同验证，同时维持原始数据语义完整性与评分体系的可解释性。

常用场景

经典使用场景

在高等教育数学教学研究领域，该数据集通过多维评分体系为大学数学问题及其解答提供精细化评估框架。研究者可借助Deita_Complexity和Thinking_Prob等指标分析数学问题的认知需求层次，利用Reward_Model和IFD评分衡量模型响应质量与指令遵循难度，为数学教育智能化提供数据支撑。

解决学术问题

该数据集有效解决了数学教育领域对自动化评估体系的迫切需求，通过标准化评分维度消除了传统人工评估的主观偏差。其创新性地将数学问题的认知复杂度与模型响应质量进行量化关联，为研究大型语言模型在数学推理领域的性能边界提供了关键基准，推动了教育人工智能领域的可解释性研究进展。

衍生相关工作

基于该数据集衍生的经典工作包括数学问题难度预测模型和自适应学习系统研发。研究者利用其丰富的评分维度构建了数学能力评估指标体系，多家科研机构据此开发了专注于数学推理的指令微调数据集，这些成果显著推动了教育大模型在STEM领域的应用深度与广度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集