eval-DeepSeek-V3-0324

Name: eval-DeepSeek-V3-0324
Creator: NousResearch
Published: 2025-08-28 16:38:11
License: 暂无描述

Hugging Face2025-08-28 更新2025-08-29 收录

下载链接：

https://huggingface.co/datasets/NousResearch/eval-DeepSeek-V3-0324

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于评估不同模型的性能，包括各种基准测试及其相应的得分、指标和样本大小。数据集是多语言的，包含大量的样本，适合进行大规模评估。

提供机构：

NousResearch

创建时间：

2025-08-14

原始信息汇总

数据集概述

基本信息

数据集名称: eval-DeepSeek-V3-0324
语言: 英语
规模: 1K<n<10K
标签: 评估、基准测试

数据集结构

特征

benchmark_results (字符串类型)

配置列表

aime24_groups
aime24_samples
aime25_groups
aime25_samples
arenahard_samples
bbh_generative_groups
bbh_generative_samples
creative-writing-v3_samples
drop_generative_nous_groups
drop_generative_nous_samples
eqbench3_samples
gpqa_diamond_groups
gpqa_diamond_samples
ifeval_groups
ifeval_samples
lcb-v6-aug2024+_samples
lcb-v6-aug2024+_groups
math_500_groups
math_500_samples
mmlu_generative_groups
mmlu_generative_samples
mmlu_pro_groups
mmlu_pro_samples
musr_generative_groups
musr_generative_samples
obqa_generative_groups
obqa_generative_samples
rewardbench_samples
simpleqa_nous_groups
simpleqa_nous_samples

评估结果摘要

基准测试得分汇总

基准测试	得分	指标	样本数	超长率
aime24	0.506	math_pass@1:64_samples	64	100.0%
aime25	0.422	math_pass@1:64_samples	64	100.0%
arenahard	0.926	eval/overall_winrate	500	0.0%
bbh_generative	0.868	extractive_match	1	100.0%
creative-writing-v3	0.767	creative_writing_score	96	0.0%
drop_generative_nous	0.829	drop_acc	1	100.0%
eqbench3	0.831	eqbench_score	135	0.0%
gpqa_diamond	0.680	gpqa_pass@1:8_samples	8	100.0%
ifeval	0.904	inst_level_loose_acc	1	100.0%
lcb-v6-aug2024+	0.492	eval/pass_1	1	100.0%
math_500	0.925	math_pass@1:4_samples	4	100.0%
mmlu_generative	0.886	extractive_match	1	100.0%
mmlu_pro	0.816	pass@1:1_samples	1	100.0%
musr_generative	0.654	extractive_match	1	100.0%
obqa_generative	0.956	extractive_match	1	100.0%
rewardbench	0.681	eval/percent_correct	1	94.5%
simpleqa_nous	0.186	fuzzy_match	1	100.0%

总体统计

总超长率: 63,690 / 64,523 样本 (98.7%) 缺失闭合 </think> 标签

详细评估结果

各基准测试包含以下详细信息：

具体指标得分及标准误差
使用的模型版本
评估耗时
温度参数设置
超长样本比例

涵盖的评估模型包括：

dsv3
dsv3-arena
dsv3-nonthinking
dsv3-temp0.3

搜集汇总

数据集介绍

构建方式

在人工智能大模型评估领域，eval-DeepSeek-V3-0324数据集通过系统化整合多个权威基准测试构建而成。该数据集汇集了AIME数学竞赛、MMLU专业学科测试、GPQA钻石级推理题等17个核心评估模块，采用标准化数据采集流程，将原始评估任务转化为统一的对话格式。每个评估模块均包含详细元数据配置和样本对话记录，通过parquet和jsonl格式实现高效存储，确保评估数据的完整性和可追溯性。

特点

该数据集最显著的特征在于其多维度的评估覆盖体系，涵盖数学推理、创造性写作、指令遵循、常识推理等十余个核心能力维度。数据集包含超过6万条高质量评估样本，每个样本均附带完整的模型响应记录和精确的评分指标。特别值得注意的是，数据集保留了模型生成过程中的长度分布特征和标记使用模式，为研究大语言模型的生成行为提供了丰富的观测维度。不同评估模块采用差异化的温度参数设置，真实还原了模型在各种推理场景下的性能表现。

使用方法

研究人员可通过HuggingFace平台直接加载特定评估模块的配置文件和样本数据，利用标准化的数据接口进行模型性能分析。数据集支持按评估维度筛选和对比研究，用户可提取不同温度设置下的模型响应数据进行深入分析。对于基准测试研究，建议采用数据集中提供的标准评估指标和统计误差计算方法，确保结果的可比性。数据集还支持跨模块的元分析，允许研究者探索模型在不同任务类型上的表现相关性。

背景与挑战

背景概述

eval-DeepSeek-V3-0324数据集由深度求索团队于2024年构建，旨在系统评估大型语言模型在多维度认知任务中的综合性能。该数据集整合了数学推理、常识问答、创造性写作等17个权威评测基准，覆盖了从基础认知到高阶推理的完整能力谱系。通过标准化评估框架，该数据集为学术界和工业界提供了模型能力量化的重要标尺，推动了通用人工智能系统在复杂场景下的性能优化与迭代发展。

当前挑战

该数据集需解决模型在跨领域任务中表现不一致的核心挑战，包括数学推理的符号运算准确性、长文本生成的逻辑连贯性以及多轮对话的上下文保持能力。构建过程中面临标注一致性难题，需协调不同评测基准的度量标准；同时处理大规模思维链标注时存在标签缺失问题，如98.7%样本缺少闭合标签，这对评估结果的可靠性提出严峻考验。

常用场景

经典使用场景

在人工智能大模型评估领域，eval-DeepSeek-V3-0324数据集通过整合多个权威基准测试，为模型性能提供标准化评估框架。该数据集广泛应用于大语言模型的综合能力测试，涵盖数学推理、常识问答、创造性写作等核心认知维度，其多模态评估结构支持研究者系统性地分析模型在不同任务中的表现差异与优势短板。

衍生相关工作

基于该数据集衍生的经典工作包括多层次模型能力诊断框架、动态评估指标体系建设以及跨任务迁移学习研究。众多研究者利用其丰富的评估维度开发了新型模型对比算法，推动了如思维链增强评估、多轮对话稳定性测试等创新方向的发展，为后续大模型评估范式的演进奠定了坚实基础。

数据集最近研究