eval-Cogito-v2-preview-405B-reasoning

Name: eval-Cogito-v2-preview-405B-reasoning
Creator: NousResearch
Published: 2025-08-28 16:37:00
License: 暂无描述

Hugging Face2025-08-28 更新2025-08-29 收录

下载链接：

https://huggingface.co/datasets/NousResearch/eval-Cogito-v2-preview-405B-reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含对名为cogito-405b-thinking的模型在各种基准测试中的评估结果。README文件提供了每个基准测试的详细指标、分数、标准误差、使用的模型、评估时间、温度和超长样本比例。文件还列出了不同目录下的数据文件路径和分割方式，表明数据集由多个数据文件组成。

提供机构：

NousResearch

创建时间：

2025-08-20

原始信息汇总

数据集概述

基本信息

数据集名称: cogito-405b-thinking Evaluation Results
语言: 英语 (en)
规模: 1K<n<10K
标签: 评估、基准测试

数据集结构

特征

benchmark_results (字符串类型)

配置列表

aime24_groups
aime24_samples
aime25_groups
aime25_samples
arenahard_samples
bbh_generative_groups
bbh_generative_samples
creative-writing-v3_samples
drop_generative_nous_groups
drop_generative_nous_samples
eqbench3_samples
gpqa_diamond_groups
gpqa_diamond_samples
ifeval_groups
ifeval_samples
lcb-v6-aug2024+_samples
lcb-v6-aug2024+_groups
math_500_groups
math_500_samples
mmlu_generative_groups
mmlu_generative_samples
mmlu_pro_groups
mmlu_pro_samples
musr_generative_groups
musr_generative_samples
obqa_generative_groups
obqa_generative_samples
rewardbench_samples
simpleqa_nous_groups
simpleqa_nous_samples

基准测试结果汇总

基准测试	得分	指标	样本数	超长率
aime24	0.408	math_pass@1:64_samples	64	20.3%
aime25	0.327	math_pass@1:64_samples	64	15.5%
arenahard	0.910	eval/overall_winrate	500	0.0%
bbh_generative	0.893	extractive_match	1	1.3%
creative-writing-v3	0.674	creative_writing_score	96	0.0%
drop_generative_nous	0.871	drop_acc	1	0.3%
eqbench3	0.672	eqbench_score	135	0.0%
gpqa_diamond	0.682	gpqa_pass@1:8_samples	8	2.0%
ifeval	0.916	inst_level_loose_acc	1	0.6%
lcb-v6-aug2024+	0.409	eval/pass_1	1	31.8%
math_500	0.917	math_pass@1:4_samples	4	1.8%
mmlu_generative	0.914	extractive_match	1	0.2%
mmlu_pro	0.826	pass@1:1_samples	1	0.9%
musr_generative	0.638	extractive_match	1	0.5%
obqa_generative	0.948	extractive_match	1	0.0%
rewardbench	0.696	eval/percent_correct	1	0.1%
simpleqa_nous	0.304	fuzzy_match	1	0.3%

总体统计

总超长率: 3,327 / 64,523 样本 (5.2%) 缺少闭合 </think> 标签

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，eval-Cogito-v2-preview-405B-reasoning数据集通过整合多个权威基准测试构建而成，涵盖数学推理、常识问答、创造性写作等多样化任务。其数据来源于AIME、MMLU、GPQA等知名评估集的生成式对话样本，采用标准化流程进行数据清洗与标注，确保评估内容的全面性与一致性。数据集以Parquet和JSONL格式存储，每个基准测试均包含详细样本和对话组信息，为模型能力评估提供结构化数据支持。

特点

该数据集显著特点在于其多维度评估体系，覆盖16个独立基准测试共计超过6万条样本，兼具广度与深度。评估指标设计科学，既包含精确匹配率、数学通过率等客观指标，也融入创造性写作评分等主观维度。数据呈现高度异构性，从严谨的数理逻辑测试到开放的文本生成任务，全面检验模型的推理能力、知识广度和创造性思维。样本质量严格控制，过长的异常样本比例维持在5.2%，保障评估结果的可靠性。

使用方法

研究人员可通过HuggingFace平台便捷加载不同基准测试配置，支持按需调用特定评估模块。使用时应首先选择目标测试集配置名称，如aime24_samples或creative-writing-v3_samples，随后加载对应的对话样本或详细组数据。评估过程需注意温度参数设置对生成结果的影响，建议参照原实验采用0.6的温度值以获得可比结果。数据分析时可综合各基准得分绘制模型能力雷达图，或进行跨测试集的对比研究以揭示模型强项与短板。

背景与挑战

背景概述

eval-Cogito-v2-preview-405B-reasoning作为大型语言模型综合评估数据集，诞生于人工智能对复杂推理能力系统化测评需求日益增长的背景下。该数据集由专业研究团队构建，整合了数学推理（AIME）、常识问答（BBH）、指令遵循（IFEval）等十六个专项评估模块，旨在通过多维度指标全面衡量模型的高级认知能力。其创新性地采用链式思维（chain-of-thought）标注范式，为推进语言模型的逻辑推理与创造性思维研究提供了重要基准。

当前挑战

该数据集核心挑战在于解决多领域复杂任务评估的统一化难题，需在数学证明、创造性写作等异构任务中保持评估指标的一致性。构建过程中面临标注质量控制的严峻挑战，尤其体现在思维链标注的完整性约束——数据显示5.2%的样本存在未闭合的</think>标签，其中数学推理任务过长生成长率达31.8%。同时需平衡不同领域样本的分布，如科学问答（GPQA）仅含8个样本而常识推理（OBQA）达500个样本，这种差异化分布对模型评估的全面性构成显著挑战。

常用场景

经典使用场景

在人工智能推理能力评估领域，eval-Cogito-v2-preview-405B-reasoning数据集被广泛应用于大语言模型的多维度性能测试。该数据集通过整合数学推理、常识问答、创造性写作等多样化任务，构建了覆盖认知能力全谱系的评估框架。研究人员利用其结构化对话样本和详细标注体系，能够系统性地分析模型在链式思维、逻辑推导和知识整合方面的表现，为模型优化提供精准的诊断依据。

衍生相关工作

基于该数据集衍生的经典工作包括思维链优化算法、多模态推理框架和自适应评估系统。研究人员开发了新型的提示工程技术，显著提升了模型在数学推理和常识问答任务中的表现。同时，该数据集催生了多个开源评估工具链，建立了行业标准的基准测试流程，这些成果持续推动着大语言模型评估方法论的发展与创新。

数据集最近研究