Cogito-v2-preview-405B-reasoning

Name: Cogito-v2-preview-405B-reasoning
Creator: NousResearch
Published: 2025-08-27 00:42:58
License: 暂无描述

Hugging Face2025-08-27 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/NousResearch/Cogito-v2-preview-405B-reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

数据集包含多个基准测试和评估指标。数据被分为不同的配置，并为每个配置提供了文件路径。评估结果为不同的基准测试提供了分数、指标和样本详细信息。数据集还包括超长样本的信息和模型性能。

提供机构：

NousResearch

创建时间：

2025-08-20

原始信息汇总

Cogito-v2-preview-405B-reasoning 数据集概述

数据集基本信息

语言: 英文
规模: 1K<n<10K
标签: 评估、基准测试

数据集结构

特征

benchmark_results (string类型)

配置列表

aime24_groups: aime24/details.parquet
aime24_samples: aime24/conversations.parquet
aime25_groups: aime25/details.parquet
aime25_samples: aime25/conversations.parquet
arenahard_samples: arenahard/samples.jsonl
bbh_generative_groups: bbh_generative/details.parquet
bbh_generative_samples: bbh_generative/conversations.parquet
creative-writing-v3_samples: creative-writing-v3/samples.jsonl
drop_generative_nous_groups: drop_generative_nous/details.parquet
drop_generative_nous_samples: drop_generative_nous/conversations.parquet
eqbench3_samples: eqbench3/samples.jsonl
gpqa_diamond_groups: gpqa_diamond/details.parquet
gpqa_diamond_samples: gpqa_diamond/conversations.parquet
ifeval_groups: ifeval/details.parquet
ifeval_samples: ifeval/conversations.parquet
lcb-v6-aug2024+_samples: lcb-v6-aug2024+/samples.jsonl
lcb-v6-aug2024+_groups: lcb-v6-aug2024+/group.jsonl
math_500_groups: math_500/details.parquet
math_500_samples: math_500/conversations.parquet
mmlu_generative_groups: mmlu_generative/details.parquet
mmlu_generative_samples: mmlu_generative/conversations.parquet
mmlu_pro_groups: mmlu_pro/details.parquet
mmlu_pro_samples: mmlu_pro/conversations.parquet
musr_generative_groups: musr_generative/details.parquet
musr_generative_samples: musr_generative/conversations.parquet
obqa_generative_groups: obqa_generative/details.parquet
obqa_generative_samples: obqa_generative/conversations.parquet
rewardbench_samples: rewardbench/samples.jsonl
simpleqa_nous_groups: simpleqa_nous/details.parquet
simpleqa_nous_samples: simpleqa_nous/conversations.parquet

基准测试结果汇总

性能指标总览

基准测试	得分	指标	样本数	超长率
aime24	0.408	math_pass@1:64_samples	64	20.3%
aime25	0.327	math_pass@1:64_samples	64	15.5%
arenahard	0.910	eval/overall_winrate	500	0.0%
bbh_generative	0.893	extractive_match	1	1.3%
creative-writing-v3	0.674	creative_writing_score	96	0.0%
drop_generative_nous	0.871	drop_acc	1	0.3%
eqbench3	0.672	eqbench_score	135	0.0%
gpqa_diamond	0.682	gpqa_pass@1:8_samples	8	2.0%
ifeval	0.916	inst_level_loose_acc	1	0.6%
lcb-v6-aug2024+	0.409	eval/pass_1	1	31.8%
math_500	0.917	math_pass@1:4_samples	4	1.8%
mmlu_generative	0.914	extractive_match	1	0.2%
mmlu_pro	0.826	pass@1:1_samples	1	0.9%
musr_generative	0.638	extractive_match	1	0.5%
obqa_generative	0.948	extractive_match	1	0.0%
rewardbench	0.696	eval/percent_correct	1	0.1%
simpleqa_nous	0.304	fuzzy_match	1	0.3%

总体统计

总超长率: 5.2% (3,327 / 64,523 样本)
问题描述: 缺失闭合 </think> 标签

搜集汇总

数据集介绍

构建方式

在人工智能推理评估领域，Cogito-v2-preview-405B-reasoning数据集通过整合多个权威基准测试构建而成。该数据集采用模块化设计，涵盖数学推理、常识问答、创造性写作等多样化任务，每个子集均以标准化格式存储，如Parquet和JSONL，确保数据结构的一致性与高效访问。构建过程中注重样本的多样性与质量，融合了生成式与抽取式评估指标，为大规模语言模型的综合能力评估提供了坚实基础。

特点

该数据集显著特点在于其广泛的覆盖范围与精细的评估维度，包含AIME、MMLU、GPQA等17个高性能基准测试。每个子集配备详尽的元数据与统计指标，如准确率、标准误差及异常样本比例，支持多维度的模型性能分析。数据集采用英语言处理，规模介于1K至10K样本之间，兼具挑战性与代表性，特别关注模型在复杂推理任务中的泛化能力与稳定性。

使用方法

研究人员可通过HuggingFace平台直接加载特定配置的子数据集，例如aime24_samples或bbh_generative_groups，利用内置的评估脚本计算模型在各任务上的性能指标。该数据集支持温度参数调节、批量采样及标准误差分析，适用于零样本评估、微调验证及跨任务泛化研究。使用时可结合提供的对话记录与详细结果表，深入分析模型在数学推理、逻辑判断等核心能力上的表现。

背景与挑战

背景概述

在人工智能推理能力评估领域，Cogito-v2-preview-405B-reasoning数据集作为一项前沿基准测试工具应运而生。该数据集由专业研究团队构建，聚焦于大规模语言模型的复杂推理能力评估，涵盖数学解题、常识推理、创造性写作等多维度任务。其设计初衷在于突破传统评估框架的局限性，通过融合AIME、GPQA、MMLU-Pro等权威子集，构建了一个全面衡量模型认知深度的评估体系。这一数据集的出现显著推动了推理型人工智能的发展，为模型能力验证提供了科学严谨的量化标准。

当前挑战

该数据集核心挑战在于解决多领域复杂推理任务的统一评估难题，特别是在数学推理领域面临符号运算与逻辑推导的双重考验。构建过程中需协调不同领域标注标准的一致性，确保从创造性写作到专业学科问答的评估维度具有可比性。技术实现上需克服思维链标注的完整性控制，当前仍存在5.2%的样本缺失思维链终止标签。此外，在保持评估严谨性的同时，还需平衡计算效率，部分子集如LCB-v6的过长样本率高达31.8%，对评估系统的稳定性构成持续挑战。

常用场景

经典使用场景

在人工智能推理能力评估领域，Cogito-v2-preview-405B-reasoning数据集通过整合数学问题求解、常识推理和创造性写作等多维度任务，为大型语言模型的推理性能提供标准化测试框架。其经典应用场景包括模型在BBH、DROP等生成式推理任务中的零样本评估，以及通过链式思维提示验证模型的多步推理能力，显著提升了推理评估的全面性和可靠性。

解决学术问题

该数据集有效解决了大语言模型在复杂推理任务中缺乏统一评估标准的学术难题，通过覆盖数学证明、逻辑推理和指令遵循等16项核心能力指标，为模型推理能力的量化比较提供科学依据。其意义在于建立了可复现的评估体系，填补了生成式模型在高阶认知能力评估方面的空白，推动了推理算法研究的标准化进程。

衍生相关工作

基于该数据集衍生了多项经典研究工作，包括采用思维链增强的推理模型架构优化、多模态推理任务的评估框架扩展，以及奖励模型与推理能力的协同训练方法。这些工作显著推进了如ArenaHard对战评估、RewardBench对齐评估等新型评估范式的发展，为构建更强大的推理系统提供了理论基础和实践路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集