eval-DeepSeek-V3-0324
收藏Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/NousResearch/eval-DeepSeek-V3-0324
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于评估不同模型的性能,包括各种基准测试及其相应的得分、指标和样本大小。数据集是多语言的,包含大量的样本,适合进行大规模评估。
提供机构:
NousResearch
创建时间:
2025-08-14
原始信息汇总
数据集概述
基本信息
- 数据集名称: eval-DeepSeek-V3-0324
- 语言: 英语
- 规模: 1K<n<10K
- 标签: 评估、基准测试
数据集结构
特征
- benchmark_results (字符串类型)
配置列表
- aime24_groups
- aime24_samples
- aime25_groups
- aime25_samples
- arenahard_samples
- bbh_generative_groups
- bbh_generative_samples
- creative-writing-v3_samples
- drop_generative_nous_groups
- drop_generative_nous_samples
- eqbench3_samples
- gpqa_diamond_groups
- gpqa_diamond_samples
- ifeval_groups
- ifeval_samples
- lcb-v6-aug2024+_samples
- lcb-v6-aug2024+_groups
- math_500_groups
- math_500_samples
- mmlu_generative_groups
- mmlu_generative_samples
- mmlu_pro_groups
- mmlu_pro_samples
- musr_generative_groups
- musr_generative_samples
- obqa_generative_groups
- obqa_generative_samples
- rewardbench_samples
- simpleqa_nous_groups
- simpleqa_nous_samples
评估结果摘要
基准测试得分汇总
| 基准测试 | 得分 | 指标 | 样本数 | 超长率 |
|---|---|---|---|---|
| aime24 | 0.506 | math_pass@1:64_samples | 64 | 100.0% |
| aime25 | 0.422 | math_pass@1:64_samples | 64 | 100.0% |
| arenahard | 0.926 | eval/overall_winrate | 500 | 0.0% |
| bbh_generative | 0.868 | extractive_match | 1 | 100.0% |
| creative-writing-v3 | 0.767 | creative_writing_score | 96 | 0.0% |
| drop_generative_nous | 0.829 | drop_acc | 1 | 100.0% |
| eqbench3 | 0.831 | eqbench_score | 135 | 0.0% |
| gpqa_diamond | 0.680 | gpqa_pass@1:8_samples | 8 | 100.0% |
| ifeval | 0.904 | inst_level_loose_acc | 1 | 100.0% |
| lcb-v6-aug2024+ | 0.492 | eval/pass_1 | 1 | 100.0% |
| math_500 | 0.925 | math_pass@1:4_samples | 4 | 100.0% |
| mmlu_generative | 0.886 | extractive_match | 1 | 100.0% |
| mmlu_pro | 0.816 | pass@1:1_samples | 1 | 100.0% |
| musr_generative | 0.654 | extractive_match | 1 | 100.0% |
| obqa_generative | 0.956 | extractive_match | 1 | 100.0% |
| rewardbench | 0.681 | eval/percent_correct | 1 | 94.5% |
| simpleqa_nous | 0.186 | fuzzy_match | 1 | 100.0% |
总体统计
- 总超长率: 63,690 / 64,523 样本 (98.7%) 缺失闭合
</think>标签
详细评估结果
各基准测试包含以下详细信息:
- 具体指标得分及标准误差
- 使用的模型版本
- 评估耗时
- 温度参数设置
- 超长样本比例
涵盖的评估模型包括:
- dsv3
- dsv3-arena
- dsv3-nonthinking
- dsv3-temp0.3
搜集汇总
数据集介绍

构建方式
在人工智能大模型评估领域,eval-DeepSeek-V3-0324数据集通过系统化整合多个权威基准测试构建而成。该数据集汇集了AIME数学竞赛、MMLU专业学科测试、GPQA钻石级推理题等17个核心评估模块,采用标准化数据采集流程,将原始评估任务转化为统一的对话格式。每个评估模块均包含详细元数据配置和样本对话记录,通过parquet和jsonl格式实现高效存储,确保评估数据的完整性和可追溯性。
特点
该数据集最显著的特征在于其多维度的评估覆盖体系,涵盖数学推理、创造性写作、指令遵循、常识推理等十余个核心能力维度。数据集包含超过6万条高质量评估样本,每个样本均附带完整的模型响应记录和精确的评分指标。特别值得注意的是,数据集保留了模型生成过程中的长度分布特征和标记使用模式,为研究大语言模型的生成行为提供了丰富的观测维度。不同评估模块采用差异化的温度参数设置,真实还原了模型在各种推理场景下的性能表现。
使用方法
研究人员可通过HuggingFace平台直接加载特定评估模块的配置文件和样本数据,利用标准化的数据接口进行模型性能分析。数据集支持按评估维度筛选和对比研究,用户可提取不同温度设置下的模型响应数据进行深入分析。对于基准测试研究,建议采用数据集中提供的标准评估指标和统计误差计算方法,确保结果的可比性。数据集还支持跨模块的元分析,允许研究者探索模型在不同任务类型上的表现相关性。
背景与挑战
背景概述
eval-DeepSeek-V3-0324数据集由深度求索团队于2024年构建,旨在系统评估大型语言模型在多维度认知任务中的综合性能。该数据集整合了数学推理、常识问答、创造性写作等17个权威评测基准,覆盖了从基础认知到高阶推理的完整能力谱系。通过标准化评估框架,该数据集为学术界和工业界提供了模型能力量化的重要标尺,推动了通用人工智能系统在复杂场景下的性能优化与迭代发展。
当前挑战
该数据集需解决模型在跨领域任务中表现不一致的核心挑战,包括数学推理的符号运算准确性、长文本生成的逻辑连贯性以及多轮对话的上下文保持能力。构建过程中面临标注一致性难题,需协调不同评测基准的度量标准;同时处理大规模思维链标注时存在标签缺失问题,如98.7%样本缺少闭合标签,这对评估结果的可靠性提出严峻考验。
常用场景
经典使用场景
在人工智能大模型评估领域,eval-DeepSeek-V3-0324数据集通过整合多个权威基准测试,为模型性能提供标准化评估框架。该数据集广泛应用于大语言模型的综合能力测试,涵盖数学推理、常识问答、创造性写作等核心认知维度,其多模态评估结构支持研究者系统性地分析模型在不同任务中的表现差异与优势短板。
衍生相关工作
基于该数据集衍生的经典工作包括多层次模型能力诊断框架、动态评估指标体系建设以及跨任务迁移学习研究。众多研究者利用其丰富的评估维度开发了新型模型对比算法,推动了如思维链增强评估、多轮对话稳定性测试等创新方向的发展,为后续大模型评估范式的演进奠定了坚实基础。
数据集最近研究
最新研究方向
在大型语言模型评估领域,eval-DeepSeek-V3-0324数据集正推动多维度能力评测体系的发展。该数据集整合了数学推理、创造性写作、指令遵循等17个专项评测模块,反映出当前研究聚焦于模型在复杂场景下的综合性能分析。特别是其涵盖的AIME数学竞赛题和GPQA钻石级难题,体现了对高阶推理能力的重视。近期研究趋势表明,学术界正通过此类多维评估框架深入探索模型在知识密集型任务中的表现边界,同时关注输出长度控制与格式合规性等实际部署问题,为下一代语言模型的优化方向提供重要参考依据。
以上内容由遇见数据集搜集并总结生成



