eval-DeepSeek-R1-0528

Name: eval-DeepSeek-R1-0528
Creator: NousResearch
Published: 2025-08-28 16:37:46
License: 暂无描述

Hugging Face2025-08-28 更新2025-08-29 收录

下载链接：

https://huggingface.co/datasets/NousResearch/eval-DeepSeek-R1-0528

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个不同配置的数据文件，以最新的版本存储。数据集以Parquet和JSONL格式存储。README中还包含了不同模型在这些数据集上的基准测试结果，包括评价指标、得分和样本大小。

提供机构：

NousResearch

创建时间：

2025-08-20

原始信息汇总

数据集概述

基本信息

数据集名称: r1-0528 Evaluation Results
语言: 英文
数据规模: 1K<n<10K
标签: 评估、基准测试

数据集结构

特征

benchmark_results (string)

配置列表

aime24_groups
aime24_samples
aime25_groups
aime25_samples
arenahard_samples
bbh_generative_groups
bbh_generative_samples
creative-writing-v3_samples
drop_generative_nous_groups
drop_generative_nous_samples
eqbench3_samples
gpqa_diamond_groups
gpqa_diamond_samples
ifeval_groups
ifeval_samples
lcb-v6-aug2024+_samples
lcb-v6-aug2024+_groups
math_500_groups
math_500_samples
mmlu_generative_groups
mmlu_generative_samples
mmlu_pro_groups
mmlu_pro_samples
musr_generative_groups
musr_generative_samples
obqa_generative_groups
obqa_generative_samples
rewardbench_samples
simpleqa_nous_groups
simpleqa_nous_samples

基准测试结果汇总

基准测试	得分	指标	样本数	超长率
aime24	0.865	math_pass@1:64_samples	64	0.0%
aime25	0.831	math_pass@1:64_samples	64	0.0%
arenahard	0.951	eval/overall_winrate	500	0.0%
bbh_generative	0.894	extractive_match	1	0.0%
creative-writing-v3	0.803	creative_writing_score	96	0.0%
drop_generative_nous	0.865	drop_acc	1	0.0%
eqbench3	0.865	eqbench_score	135	0.0%
gpqa_diamond	0.781	gpqa_pass@1:8_samples	8	0.1%
ifeval	0.900	inst_level_loose_acc	1	0.0%
lcb-v6-aug2024+	0.718	eval/pass_1	1	0.2%
math_500	0.975	math_pass@1:4_samples	4	0.7%
mmlu_generative	0.904	extractive_match	1	0.0%
mmlu_pro	0.843	pass@1:1_samples	1	0.0%
musr_generative	0.726	extractive_match	1	0.0%
obqa_generative	0.956	extractive_match	1	0.0%
rewardbench	0.701	eval/percent_correct	1	0.1%
simpleqa_nous	0.220	fuzzy_match	1	0.0%

总体统计

总样本数: 64,523
总体超长率: 0.0% (28个样本缺少闭合</think>标签)

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，eval-DeepSeek-R1-0528数据集通过系统化集成多个权威基准测试构建而成。该数据集采用模块化架构，将AIME数学竞赛、MMLU专业考试、GPQA钻石级难题等17个评估模块分别以parquet和jsonl格式组织，每个模块均包含样本对话和详细元数据。构建过程中严格遵循标准化数据采集流程，确保评估样本的多样性和代表性，涵盖数学推理、创造性写作、事实性问答等多个认知维度。

特点

本数据集最显著的特征在于其全面的评估覆盖范围和精细的指标设计。它不仅包含传统的准确率指标，还创新性地引入了超长样本率、格式合规率等质量监控指标。数据集提供多层次评估粒度，从单样本表现到群体统计特征均能精确捕捉，且每个基准测试都配备标准误差计算，确保评估结果的统计学可靠性。特别值得关注的是其跨领域评估能力，从基础数学推理到复杂创造性任务均能提供标准化测评。

使用方法

研究人员可通过HuggingFace平台直接加载特定配置的评估模块，例如aime24_groups用于获取数学竞赛的组级统计，creative-writing-v3_samples则提供创造性写作的样本级数据。使用时应首先选择目标评估领域对应的config名称，然后通过标准数据加载接口读取parquet或jsonl格式文件。数据分析可结合提供的标准误差指标进行统计推断，同时建议关注overlong_rate等质量指标以确保评估结果的可靠性。不同温度设置下的模型表现对比也可为超参数优化提供参考。

背景与挑战

背景概述

eval-DeepSeek-R1-0528数据集由深度求索团队于2024年构建，旨在系统评估大语言模型在多维度认知任务中的综合性能。该数据集整合了数学推理、常识问答、创造性写作等16个权威评测基准，覆盖了从基础认知到高阶推理的完整能力谱系。通过标准化评估框架，该数据集为人工智能社区提供了模型能力量化的重要标尺，推动了通用人工智能系统的客观性能对比与迭代优化。

当前挑战

该数据集需解决大语言模型能力评估中的多维异构挑战，包括数学推理的符号运算准确性、常识问答的语义理解深度以及创造性任务的内容连贯性。构建过程中面临标注一致性维护、多模态评估指标融合、以及长文本生成质量量化等难题，特别是在处理思维链标注完整性（如</think>标签闭合）和跨基准评分标准化方面存在显著技术复杂性。

常用场景

经典使用场景

在人工智能模型评估领域，eval-DeepSeek-R1-0528数据集作为多维度基准测试平台，广泛应用于大语言模型的综合性能验证。该数据集通过整合数学推理（AIME24/25、MATH_500）、常识推理（BBH、OBQA）、专业学科（MMLU、GPQA）及创造性写作等多样化任务，为研究者提供标准化评估框架。其典型应用场景包括模型能力对比分析、微调策略效果验证以及新兴算法的性能基线建立，特别是在思维链推理和长文本生成质量评估方面展现显著价值。

衍生相关工作

基于该数据集衍生的研究成果显著推动了评估方法论的发展，例如采用思维链（Chain-of-Thought）评估框架的深度分析、多采样温度策略的效能验证（如64采样精度提升实验），以及新型奖励模型训练范式。这些工作不仅催生了ARENA-hard等对抗性评估基准的优化，更促进了如EqBench3情感智能评估体系、LCB-v6代码生成评估标准等专项评估工具的迭代创新，形成完整的模型评估生态系统。

数据集最近研究