eval-Cogito-v2-preview-405B-reasoning
收藏Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/NousResearch/eval-Cogito-v2-preview-405B-reasoning
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含对名为cogito-405b-thinking的模型在各种基准测试中的评估结果。README文件提供了每个基准测试的详细指标、分数、标准误差、使用的模型、评估时间、温度和超长样本比例。文件还列出了不同目录下的数据文件路径和分割方式,表明数据集由多个数据文件组成。
提供机构:
NousResearch
创建时间:
2025-08-20
原始信息汇总
数据集概述
基本信息
- 数据集名称: cogito-405b-thinking Evaluation Results
- 语言: 英语 (en)
- 规模: 1K<n<10K
- 标签: 评估、基准测试
数据集结构
特征
- benchmark_results (字符串类型)
配置列表
- aime24_groups
- aime24_samples
- aime25_groups
- aime25_samples
- arenahard_samples
- bbh_generative_groups
- bbh_generative_samples
- creative-writing-v3_samples
- drop_generative_nous_groups
- drop_generative_nous_samples
- eqbench3_samples
- gpqa_diamond_groups
- gpqa_diamond_samples
- ifeval_groups
- ifeval_samples
- lcb-v6-aug2024+_samples
- lcb-v6-aug2024+_groups
- math_500_groups
- math_500_samples
- mmlu_generative_groups
- mmlu_generative_samples
- mmlu_pro_groups
- mmlu_pro_samples
- musr_generative_groups
- musr_generative_samples
- obqa_generative_groups
- obqa_generative_samples
- rewardbench_samples
- simpleqa_nous_groups
- simpleqa_nous_samples
基准测试结果汇总
| 基准测试 | 得分 | 指标 | 样本数 | 超长率 |
|---|---|---|---|---|
| aime24 | 0.408 | math_pass@1:64_samples | 64 | 20.3% |
| aime25 | 0.327 | math_pass@1:64_samples | 64 | 15.5% |
| arenahard | 0.910 | eval/overall_winrate | 500 | 0.0% |
| bbh_generative | 0.893 | extractive_match | 1 | 1.3% |
| creative-writing-v3 | 0.674 | creative_writing_score | 96 | 0.0% |
| drop_generative_nous | 0.871 | drop_acc | 1 | 0.3% |
| eqbench3 | 0.672 | eqbench_score | 135 | 0.0% |
| gpqa_diamond | 0.682 | gpqa_pass@1:8_samples | 8 | 2.0% |
| ifeval | 0.916 | inst_level_loose_acc | 1 | 0.6% |
| lcb-v6-aug2024+ | 0.409 | eval/pass_1 | 1 | 31.8% |
| math_500 | 0.917 | math_pass@1:4_samples | 4 | 1.8% |
| mmlu_generative | 0.914 | extractive_match | 1 | 0.2% |
| mmlu_pro | 0.826 | pass@1:1_samples | 1 | 0.9% |
| musr_generative | 0.638 | extractive_match | 1 | 0.5% |
| obqa_generative | 0.948 | extractive_match | 1 | 0.0% |
| rewardbench | 0.696 | eval/percent_correct | 1 | 0.1% |
| simpleqa_nous | 0.304 | fuzzy_match | 1 | 0.3% |
总体统计
- 总超长率: 3,327 / 64,523 样本 (5.2%) 缺少闭合
</think>标签
搜集汇总
数据集介绍

构建方式
在人工智能评估领域,eval-Cogito-v2-preview-405B-reasoning数据集通过整合多个权威基准测试构建而成,涵盖数学推理、常识问答、创造性写作等多样化任务。其数据来源于AIME、MMLU、GPQA等知名评估集的生成式对话样本,采用标准化流程进行数据清洗与标注,确保评估内容的全面性与一致性。数据集以Parquet和JSONL格式存储,每个基准测试均包含详细样本和对话组信息,为模型能力评估提供结构化数据支持。
特点
该数据集显著特点在于其多维度评估体系,覆盖16个独立基准测试共计超过6万条样本,兼具广度与深度。评估指标设计科学,既包含精确匹配率、数学通过率等客观指标,也融入创造性写作评分等主观维度。数据呈现高度异构性,从严谨的数理逻辑测试到开放的文本生成任务,全面检验模型的推理能力、知识广度和创造性思维。样本质量严格控制,过长的异常样本比例维持在5.2%,保障评估结果的可靠性。
使用方法
研究人员可通过HuggingFace平台便捷加载不同基准测试配置,支持按需调用特定评估模块。使用时应首先选择目标测试集配置名称,如aime24_samples或creative-writing-v3_samples,随后加载对应的对话样本或详细组数据。评估过程需注意温度参数设置对生成结果的影响,建议参照原实验采用0.6的温度值以获得可比结果。数据分析时可综合各基准得分绘制模型能力雷达图,或进行跨测试集的对比研究以揭示模型强项与短板。
背景与挑战
背景概述
eval-Cogito-v2-preview-405B-reasoning作为大型语言模型综合评估数据集,诞生于人工智能对复杂推理能力系统化测评需求日益增长的背景下。该数据集由专业研究团队构建,整合了数学推理(AIME)、常识问答(BBH)、指令遵循(IFEval)等十六个专项评估模块,旨在通过多维度指标全面衡量模型的高级认知能力。其创新性地采用链式思维(chain-of-thought)标注范式,为推进语言模型的逻辑推理与创造性思维研究提供了重要基准。
当前挑战
该数据集核心挑战在于解决多领域复杂任务评估的统一化难题,需在数学证明、创造性写作等异构任务中保持评估指标的一致性。构建过程中面临标注质量控制的严峻挑战,尤其体现在思维链标注的完整性约束——数据显示5.2%的样本存在未闭合的</think>标签,其中数学推理任务过长生成长率达31.8%。同时需平衡不同领域样本的分布,如科学问答(GPQA)仅含8个样本而常识推理(OBQA)达500个样本,这种差异化分布对模型评估的全面性构成显著挑战。
常用场景
经典使用场景
在人工智能推理能力评估领域,eval-Cogito-v2-preview-405B-reasoning数据集被广泛应用于大语言模型的多维度性能测试。该数据集通过整合数学推理、常识问答、创造性写作等多样化任务,构建了覆盖认知能力全谱系的评估框架。研究人员利用其结构化对话样本和详细标注体系,能够系统性地分析模型在链式思维、逻辑推导和知识整合方面的表现,为模型优化提供精准的诊断依据。
衍生相关工作
基于该数据集衍生的经典工作包括思维链优化算法、多模态推理框架和自适应评估系统。研究人员开发了新型的提示工程技术,显著提升了模型在数学推理和常识问答任务中的表现。同时,该数据集催生了多个开源评估工具链,建立了行业标准的基准测试流程,这些成果持续推动着大语言模型评估方法论的发展与创新。
数据集最近研究
最新研究方向
在大型语言模型推理能力评估领域,eval-Cogito-v2数据集通过整合数学推理、常识问答和创造性写作等多维度基准测试,为模型思维链推理机制的研究提供了重要支撑。当前研究聚焦于提升模型在复杂推理任务中的表现,特别是在数学问题求解和逻辑推理方面,通过分析模型在AIME、GPQA等高水平数学竞赛题目上的表现,探索推理步骤的优化策略。同时,该数据集在安全性评估和指令遵循能力测试方面的应用,推动了对齐研究的发展,为构建更可靠、可控的人工智能系统提供了实证基础。
以上内容由遇见数据集搜集并总结生成



