Magpie-Reasoning-V2-250K-CoT-QwQ-math_scored

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/OpenDataArena/Magpie-Reasoning-V2-250K-CoT-QwQ-math_scored

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个经过评分的Magpie-Reasoning-V2-250K-CoT-QwQ数据集版本，包含了针对指令和指令-响应对的细致评分信息，可用于对数据进行高度粒度的分析和选择。数据来源于OpenDataArena项目。

创建时间：

2025-07-26

原始信息汇总

Magpie-Reasoning-V2-250K-CoT-QwQ-math_scored 数据集概述

数据集来源

本数据集是原始数据集 Magpie-Align/Magpie-Reasoning-V2-250K-CoT-QwQ 的评分版本。
所有数据来源于 OpenDataArena 项目。

数据格式

格式：JSON Lines (JSONL)
每行结构：
- instruction：原始指令。
- output：模型响应。
- Q_scores：评估指令质量的字典。
- QA_scores：评估指令-响应对质量的字典。
注意：部分评分可能为 null，表示不适用或未运行。

评分维度

问题级评分 (`Q_scores`)

Deita_Complexity：指令复杂度（1-6）。
Thinking_Prob：数学问题的深度推理需求。
Difficulty：代码或数学问题的难度。
Clarity、Coherence、Completeness、Complexity、Correctness、Meaningfulness：指令的清晰度、逻辑一致性、完整性、复杂性、准确性和实用性。

问题-答案对评分 (`QA_scores`)

Deita_Quality：指令-响应对的整体质量（1-6）。
IFD：指令跟随难度。
Reward_Model：Skywork-Reward-Model 的奖励分数。
Fail_Rate：模型失败概率（如数学问题）。
Relevance：答案与问题的相关性。
Clarity、Coherence、Completeness、Complexity、Correctness、Meaningfulness：响应的清晰度、逻辑一致性、完整性、复杂性、准确性和洞察力。
A_Length：响应长度（基于 o200k_base 编码器）。

数据集访问

使用 🤗 datasets 库加载： python from datasets import load_dataset dataset = load_dataset("OpenDataArena/Magpie-Reasoning-V2-250K-CoT-QwQ-math_scored")

相关资源

评分工具：OpenDataArena-Tool
OpenDataArena 项目：OpenDataArena Platform
原始数据集：Magpie-Align/Magpie-Reasoning-V2-250K-CoT-QwQ

搜集汇总

数据集介绍

构建方式

在人工智能推理任务领域，数据质量对模型性能具有决定性影响。该数据集基于原始推理数据集Magpie-Reasoning-V2-250K-CoT-QwQ，通过OpenDataArena-Tool自动化评估工具进行系统性评分构建。该工具采用多维评分体系，包含基于模型的复杂度和质量评估，以及基于大语言模型评判的清晰度、连贯性等指标，同时针对数学问题特别设计了思维概率和失败率等专项评估维度，最终形成包含指令级和问答对级评分的增强版本数据集。

特点

该数据集最显著的特征在于其丰富的多维度评分体系。每个数据样本不仅包含原始指令和模型响应，还配备了两大类评分指标：Q_scores专注于评估指令本身的质量，涵盖复杂度、清晰度、逻辑一致性等维度；QA_scores则针对问答对进行综合评价，包括相关性、事实准确性、响应长度等实用指标。这种细粒度的评分结构为研究人员提供了深入分析数据质量与模型性能关联的独特视角。

使用方法

研究人员可通过Hugging Face的datasets库直接加载该数据集，利用其标准化JSONL格式进行高效访问。数据集中的多维评分指标支持灵活的数据筛选和分析，例如根据复杂度分数选择特定难度的训练样本，或通过质量评分过滤低质量数据。这些评分还可作为特征输入用于模型训练优化，或作为评估基准对比不同模型的响应质量，为推理任务的模型开发和评估提供全面支持。

背景与挑战

背景概述

随着大型语言模型在复杂推理任务中的广泛应用，高质量指令微调数据集的需求日益凸显。Magpie-Reasoning-V2-250K-CoT-QwQ-math_scored数据集由OpenDataArena项目团队基于原始Magpie数据集构建，通过集成多维度自动化评估体系，为数学推理与链式思维任务提供精细化的质量标注。该数据集采用先进的LLM-as-Judge和模型基评分技术，从指令复杂性到响应准确性进行全面量化，显著提升了指令跟随数据集的可解释性与可用性，为推理型语言模型的优化与评估建立了新的基准。

当前挑战

该数据集致力于解决复杂数学推理与链式思维任务中模型响应质量评估的标准化难题，其核心挑战在于如何构建跨维度、可量化的评估体系以准确捕捉指令-响应对的语义一致性。在构建过程中，团队需克服多源评分模型的一致性整合问题，包括处理数学问题特有的深度推理度量（Thinking_Prob）与通用质量指标（如Deita_Quality）的协同，同时确保自动化评分与人工评估间的信效度平衡。此外，针对不同领域问题（如代码生成与数学证明）的评分适配性，以及海量数据中null值的合理处理，均对数据集的可靠性与泛化能力提出严峻考验。

常用场景

经典使用场景

在人工智能推理能力评估领域，该数据集通过多维评分体系为指令遵循和响应质量提供量化标准。研究者可基于Deita_Complexity和Thinking_Prob等指标筛选高认知需求的数学推理问题，利用IFD和Reward_Model分数分析模型执行复杂指令的难度与对齐程度，为大语言模型的推理能力优化提供精准数据支撑。

衍生相关工作

基于该数据集衍生的经典工作包括OpenDataArena自动化评估框架的优化迭代，以及多模态推理模型的联合训练范式。研究者利用其丰富的评分维度开发了新型数据筛选算法，推动了Instruction Tuning技术的精细化发展，并为后续MathCAMEL、Reasoning-Reward等数学推理专项数据集的构建提供了重要方法论参考。

数据集最近研究