ScaleQuest-Math_scored
收藏Hugging Face2025-07-29 更新2025-07-30 收录
下载链接:
https://huggingface.co/datasets/OpenDataArena/ScaleQuest-Math_scored
下载链接
链接失效反馈官方服务:
资源简介:
ScaleQuest-Math_scored是一个包含评分信息的数学问题数据集,基于OpenDataArena评分工具对原始ScaleQuest-Math数据集中的指令和响应进行评分。数据集提供了关于指令复杂度、清晰度、连贯性、完整性、正确性和实际意义等多个维度的评分,以及指令-响应对的质量、难度、相关性等评分。
创建时间:
2025-07-26
原始信息汇总
ScaleQuest-Math_scored 数据集概述
数据集来源
- 本数据集是基于原始数据集 dyyyyyyyy/ScaleQuest-Math 的评分版本。
- 评分使用 OpenDataArena-Tool 工具完成。
- 数据来源于 OpenDataArena 项目。
数据格式
- 格式:JSON Lines (JSONL)
- 每行结构:
instruction:原始指令。output:模型的响应。Q_scores:评估指令质量的字典。QA_scores:评估指令-响应对质量的字典。
- 注意:部分评分可能为
null,表示不适用或未运行。
评分维度
问题级别评分 (Q_scores)
Deita_Complexity:指令复杂度(1-6分)。Thinking_Prob:数学问题的深度推理需求。Difficulty:代码或数学问题的难度。Clarity、Coherence、Completeness、Complexity、Correctness、Meaningfulness:指令的清晰度、逻辑一致性、完整性、复杂性、准确性和实用性。
问题-答案对评分 (QA_scores)
Deita_Quality:指令-响应对的整体质量(1-6分)。IFD:指令遵循难度。Reward_Model:奖励模型评分。Fail_Rate:模型失败概率(数学问题)。Relevance:答案与问题的相关性。Clarity、Coherence、Completeness、Complexity、Correctness、Meaningfulness:响应的清晰度、逻辑一致性、完整性、复杂性、准确性和价值。A_Length:响应长度(基于o200k_base编码器的令牌数)。
数据集访问
- 使用 🤗
datasets库加载: python from datasets import load_dataset dataset = load_dataset("OpenDataArena/ScaleQuest-Math_scored")
相关资源
- 评分工具:OpenDataArena-Tool
- OpenDataArena 项目:OpenDataArena Platform
- 原始数据集:dyyyyyyyy/ScaleQuest-Math
搜集汇总
数据集介绍

构建方式
在数学指令遵循数据集的研究领域,ScaleQuest-Math_scored数据集基于原始ScaleQuest-Math构建,采用OpenDataArena-Tool自动化评估工具进行多维度评分。该工具整合了模型驱动与LLM-as-Judge方法,对指令质量及指令-响应对表现进行量化,涵盖复杂性、清晰度、逻辑一致性等指标,并通过启发式方法计算响应长度,确保评分的全面性与客观性。
特点
该数据集的核心特征在于其丰富的多维度评分体系,分别从指令层面和指令-响应对层面提供精细化评估。指令评分包括Deita_Complexity、Thinking_Prob等模型驱动的复杂性度量,以及LLM评判的清晰度、连贯性等质量指标;指令-响应对评分则涵盖Deita_Quality、Reward_Model等对齐性评估,并结合相关性、正确性等实用维度,为研究者提供深度分析基础。
使用方法
研究者可通过Hugging Face的datasets库直接加载该数据集,利用JSONL格式访问每个样本的指令、输出及嵌套的Q_scores与QA_scores字段。这些评分维度支持数据筛选、质量分析和模型训练评估,尤其适用于数学问题求解、指令遵循能力研究及自动化评估方法开发,为NLP领域提供标准化数据评估框架。
背景与挑战
背景概述
ScaleQuest-Math_scored数据集由OpenDataArena项目团队于2024年构建,源于dyyyyyyyy/ScaleQuest-Math原始数学问题集合。该数据集专注于大语言模型在数学推理领域的指令遵循能力评估,通过多维评分体系为每个问题-答案对提供精细化质量度量。其创新性在于融合了Deita复杂性评估、奖励模型评分和LLM-as-Judge人工模拟评判等多重评估维度,为研究社区提供了首个具有细粒度质量标注的数学指令数据集,显著推进了指令优化与模型对齐研究的发展进程。
当前挑战
数学指令数据集构建面临核心挑战在于量化评估指标的设计:既要准确捕捉数学推理的深度复杂度,又需平衡自动化评估与人工评判的可靠性差距。具体而言,数学问题的多解性特征导致标准答案匹配困难,推理步骤的完整性评估需要专门设计的度量标准。在技术实现层面,不同评分模型的一致性校准、长文本数学推导的语义保持,以及跨难度级别问题的公平性评估,都构成了数据集构建过程中的关键技术壁垒。
常用场景
经典使用场景
在数学教育智能化研究领域,ScaleQuest-Math_scored数据集为大规模语言模型的数学推理能力评估提供了标准化基准。研究者通过其多维评分体系,能够系统分析模型在解决代数、几何及概率统计等复杂数学问题时的表现差异,特别适用于对比不同模型在相同题目上的解题精度与推理深度。
衍生相关工作
基于该数据集衍生的经典研究包括数学推理模型的对抗训练框架、多维度能力评估指标体系构建,以及指令优化生成技术。这些工作通过挖掘评分维度间的关联性,发展了基于数据驱动的模型能力增强方法,进一步推动了数学教育垂直领域的大模型应用创新。
数据集最近研究
最新研究方向
在数学推理数据集领域,ScaleQuest-Math_scored通过OpenDataArena-Tool提供的多维评分体系,为指令遵循质量评估开辟了新范式。当前研究聚焦于利用其细粒度的Q_scores和QA_scores指标,探索大语言模型在复杂数学问题中的推理能力与指令遵循机制的关联。该数据集支持对模型失败模式、认知需求与响应质量间的量化分析,成为驱动数学推理可解释性研究和自适应训练策略优化的关键基础设施。其多维度评估框架正被广泛应用于构建新一代数学推理基准测试,推动领域向更精细化的性能诊断与模型优化方向发展。
以上内容由遇见数据集搜集并总结生成



