ScaleQuest-Math_scored

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/OpenDataArena/ScaleQuest-Math_scored

下载链接

链接失效反馈

官方服务：

资源简介：

ScaleQuest-Math_scored是一个包含评分信息的数学问题数据集，基于OpenDataArena评分工具对原始ScaleQuest-Math数据集中的指令和响应进行评分。数据集提供了关于指令复杂度、清晰度、连贯性、完整性、正确性和实际意义等多个维度的评分，以及指令-响应对的质量、难度、相关性等评分。

创建时间：

2025-07-26

原始信息汇总

ScaleQuest-Math_scored 数据集概述

数据集来源

本数据集是基于原始数据集 dyyyyyyyy/ScaleQuest-Math 的评分版本。
评分使用 OpenDataArena-Tool 工具完成。
数据来源于 OpenDataArena 项目。

数据格式

格式：JSON Lines (JSONL)
每行结构：
- instruction：原始指令。
- output：模型的响应。
- Q_scores：评估指令质量的字典。
- QA_scores：评估指令-响应对质量的字典。
注意：部分评分可能为 null，表示不适用或未运行。

评分维度

问题级别评分 (`Q_scores`)

Deita_Complexity：指令复杂度（1-6分）。
Thinking_Prob：数学问题的深度推理需求。
Difficulty：代码或数学问题的难度。
Clarity、Coherence、Completeness、Complexity、Correctness、Meaningfulness：指令的清晰度、逻辑一致性、完整性、复杂性、准确性和实用性。

问题-答案对评分 (`QA_scores`)

Deita_Quality：指令-响应对的整体质量（1-6分）。
IFD：指令遵循难度。
Reward_Model：奖励模型评分。
Fail_Rate：模型失败概率（数学问题）。
Relevance：答案与问题的相关性。
Clarity、Coherence、Completeness、Complexity、Correctness、Meaningfulness：响应的清晰度、逻辑一致性、完整性、复杂性、准确性和价值。
A_Length：响应长度（基于 o200k_base 编码器的令牌数）。

数据集访问

使用 🤗 datasets 库加载： python from datasets import load_dataset dataset = load_dataset("OpenDataArena/ScaleQuest-Math_scored")

相关资源

评分工具：OpenDataArena-Tool
OpenDataArena 项目：OpenDataArena Platform
原始数据集：dyyyyyyyy/ScaleQuest-Math

搜集汇总

数据集介绍

构建方式

在数学指令遵循数据集的研究领域，ScaleQuest-Math_scored数据集基于原始ScaleQuest-Math构建，采用OpenDataArena-Tool自动化评估工具进行多维度评分。该工具整合了模型驱动与LLM-as-Judge方法，对指令质量及指令-响应对表现进行量化，涵盖复杂性、清晰度、逻辑一致性等指标，并通过启发式方法计算响应长度，确保评分的全面性与客观性。

特点

该数据集的核心特征在于其丰富的多维度评分体系，分别从指令层面和指令-响应对层面提供精细化评估。指令评分包括Deita_Complexity、Thinking_Prob等模型驱动的复杂性度量，以及LLM评判的清晰度、连贯性等质量指标；指令-响应对评分则涵盖Deita_Quality、Reward_Model等对齐性评估，并结合相关性、正确性等实用维度，为研究者提供深度分析基础。

使用方法

研究者可通过Hugging Face的datasets库直接加载该数据集，利用JSONL格式访问每个样本的指令、输出及嵌套的Q_scores与QA_scores字段。这些评分维度支持数据筛选、质量分析和模型训练评估，尤其适用于数学问题求解、指令遵循能力研究及自动化评估方法开发，为NLP领域提供标准化数据评估框架。

背景与挑战

背景概述

ScaleQuest-Math_scored数据集由OpenDataArena项目团队于2024年构建，源于dyyyyyyyy/ScaleQuest-Math原始数学问题集合。该数据集专注于大语言模型在数学推理领域的指令遵循能力评估，通过多维评分体系为每个问题-答案对提供精细化质量度量。其创新性在于融合了Deita复杂性评估、奖励模型评分和LLM-as-Judge人工模拟评判等多重评估维度，为研究社区提供了首个具有细粒度质量标注的数学指令数据集，显著推进了指令优化与模型对齐研究的发展进程。

当前挑战

数学指令数据集构建面临核心挑战在于量化评估指标的设计：既要准确捕捉数学推理的深度复杂度，又需平衡自动化评估与人工评判的可靠性差距。具体而言，数学问题的多解性特征导致标准答案匹配困难，推理步骤的完整性评估需要专门设计的度量标准。在技术实现层面，不同评分模型的一致性校准、长文本数学推导的语义保持，以及跨难度级别问题的公平性评估，都构成了数据集构建过程中的关键技术壁垒。

常用场景

经典使用场景

在数学教育智能化研究领域，ScaleQuest-Math_scored数据集为大规模语言模型的数学推理能力评估提供了标准化基准。研究者通过其多维评分体系，能够系统分析模型在解决代数、几何及概率统计等复杂数学问题时的表现差异，特别适用于对比不同模型在相同题目上的解题精度与推理深度。

衍生相关工作

基于该数据集衍生的经典研究包括数学推理模型的对抗训练框架、多维度能力评估指标体系构建，以及指令优化生成技术。这些工作通过挖掘评分维度间的关联性，发展了基于数据驱动的模型能力增强方法，进一步推动了数学教育垂直领域的大模型应用创新。

数据集最近研究