five

eval-DeepSeek-R1-0528

收藏
Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/NousResearch/eval-DeepSeek-R1-0528
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个不同配置的数据文件,以最新的版本存储。数据集以Parquet和JSONL格式存储。README中还包含了不同模型在这些数据集上的基准测试结果,包括评价指标、得分和样本大小。
提供机构:
NousResearch
创建时间:
2025-08-20
原始信息汇总

数据集概述

基本信息

  • 数据集名称: r1-0528 Evaluation Results
  • 语言: 英文
  • 数据规模: 1K<n<10K
  • 标签: 评估、基准测试

数据集结构

特征

  • benchmark_results (string)

配置列表

  • aime24_groups
  • aime24_samples
  • aime25_groups
  • aime25_samples
  • arenahard_samples
  • bbh_generative_groups
  • bbh_generative_samples
  • creative-writing-v3_samples
  • drop_generative_nous_groups
  • drop_generative_nous_samples
  • eqbench3_samples
  • gpqa_diamond_groups
  • gpqa_diamond_samples
  • ifeval_groups
  • ifeval_samples
  • lcb-v6-aug2024+_samples
  • lcb-v6-aug2024+_groups
  • math_500_groups
  • math_500_samples
  • mmlu_generative_groups
  • mmlu_generative_samples
  • mmlu_pro_groups
  • mmlu_pro_samples
  • musr_generative_groups
  • musr_generative_samples
  • obqa_generative_groups
  • obqa_generative_samples
  • rewardbench_samples
  • simpleqa_nous_groups
  • simpleqa_nous_samples

基准测试结果汇总

基准测试 得分 指标 样本数 超长率
aime24 0.865 math_pass@1:64_samples 64 0.0%
aime25 0.831 math_pass@1:64_samples 64 0.0%
arenahard 0.951 eval/overall_winrate 500 0.0%
bbh_generative 0.894 extractive_match 1 0.0%
creative-writing-v3 0.803 creative_writing_score 96 0.0%
drop_generative_nous 0.865 drop_acc 1 0.0%
eqbench3 0.865 eqbench_score 135 0.0%
gpqa_diamond 0.781 gpqa_pass@1:8_samples 8 0.1%
ifeval 0.900 inst_level_loose_acc 1 0.0%
lcb-v6-aug2024+ 0.718 eval/pass_1 1 0.2%
math_500 0.975 math_pass@1:4_samples 4 0.7%
mmlu_generative 0.904 extractive_match 1 0.0%
mmlu_pro 0.843 pass@1:1_samples 1 0.0%
musr_generative 0.726 extractive_match 1 0.0%
obqa_generative 0.956 extractive_match 1 0.0%
rewardbench 0.701 eval/percent_correct 1 0.1%
simpleqa_nous 0.220 fuzzy_match 1 0.0%

总体统计

  • 总样本数: 64,523
  • 总体超长率: 0.0% (28个样本缺少闭合</think>标签)
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能评估领域,eval-DeepSeek-R1-0528数据集通过系统化集成多个权威基准测试构建而成。该数据集采用模块化架构,将AIME数学竞赛、MMLU专业考试、GPQA钻石级难题等17个评估模块分别以parquet和jsonl格式组织,每个模块均包含样本对话和详细元数据。构建过程中严格遵循标准化数据采集流程,确保评估样本的多样性和代表性,涵盖数学推理、创造性写作、事实性问答等多个认知维度。
特点
本数据集最显著的特征在于其全面的评估覆盖范围和精细的指标设计。它不仅包含传统的准确率指标,还创新性地引入了超长样本率、格式合规率等质量监控指标。数据集提供多层次评估粒度,从单样本表现到群体统计特征均能精确捕捉,且每个基准测试都配备标准误差计算,确保评估结果的统计学可靠性。特别值得关注的是其跨领域评估能力,从基础数学推理到复杂创造性任务均能提供标准化测评。
使用方法
研究人员可通过HuggingFace平台直接加载特定配置的评估模块,例如aime24_groups用于获取数学竞赛的组级统计,creative-writing-v3_samples则提供创造性写作的样本级数据。使用时应首先选择目标评估领域对应的config名称,然后通过标准数据加载接口读取parquet或jsonl格式文件。数据分析可结合提供的标准误差指标进行统计推断,同时建议关注overlong_rate等质量指标以确保评估结果的可靠性。不同温度设置下的模型表现对比也可为超参数优化提供参考。
背景与挑战
背景概述
eval-DeepSeek-R1-0528数据集由深度求索团队于2024年构建,旨在系统评估大语言模型在多维度认知任务中的综合性能。该数据集整合了数学推理、常识问答、创造性写作等16个权威评测基准,覆盖了从基础认知到高阶推理的完整能力谱系。通过标准化评估框架,该数据集为人工智能社区提供了模型能力量化的重要标尺,推动了通用人工智能系统的客观性能对比与迭代优化。
当前挑战
该数据集需解决大语言模型能力评估中的多维异构挑战,包括数学推理的符号运算准确性、常识问答的语义理解深度以及创造性任务的内容连贯性。构建过程中面临标注一致性维护、多模态评估指标融合、以及长文本生成质量量化等难题,特别是在处理思维链标注完整性(如</think>标签闭合)和跨基准评分标准化方面存在显著技术复杂性。
常用场景
经典使用场景
在人工智能模型评估领域,eval-DeepSeek-R1-0528数据集作为多维度基准测试平台,广泛应用于大语言模型的综合性能验证。该数据集通过整合数学推理(AIME24/25、MATH_500)、常识推理(BBH、OBQA)、专业学科(MMLU、GPQA)及创造性写作等多样化任务,为研究者提供标准化评估框架。其典型应用场景包括模型能力对比分析、微调策略效果验证以及新兴算法的性能基线建立,特别是在思维链推理和长文本生成质量评估方面展现显著价值。
衍生相关工作
基于该数据集衍生的研究成果显著推动了评估方法论的发展,例如采用思维链(Chain-of-Thought)评估框架的深度分析、多采样温度策略的效能验证(如64采样精度提升实验),以及新型奖励模型训练范式。这些工作不仅催生了ARENA-hard等对抗性评估基准的优化,更促进了如EqBench3情感智能评估体系、LCB-v6代码生成评估标准等专项评估工具的迭代创新,形成完整的模型评估生态系统。
数据集最近研究
最新研究方向
在大语言模型评估领域,eval-DeepSeek-R1-0528数据集正推动多维度能力评测体系的构建。该数据集整合了数学推理(AIME、MATH)、常识问答(MMLU、BBH)、创造性写作(creative-writing-v3)及安全对齐(rewardbench)等16项前沿基准,反映出当前研究正从单一性能指标转向综合能力评估。特别是其引入的思维链标注机制与长文本处理指标(overlong rate),为解释性AI和长上下文建模提供了重要数据支撑。随着模型规模持续扩大,该数据集已成为验证模型泛化能力与对齐效果的关键工具,直接影响着新一代对话系统的研发方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作