eval-Cogito-v2-preview-70B-reasoning

Name: eval-Cogito-v2-preview-70B-reasoning
Creator: NousResearch
Published: 2025-08-28 16:35:58
License: 暂无描述

Hugging Face2025-08-28 更新2025-08-29 收录

下载链接：

https://huggingface.co/datasets/NousResearch/eval-Cogito-v2-preview-70B-reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个数据集的集合，每个数据集都有不同的配置和文件路径。数据集的语言为英文，大小在1K到10K之间。数据集主要用于评估和基准测试，包括aime24、aime25、arenahard等。每个数据集都有详细的评估结果，包括分数、指标、样本数和过长的样本率。

提供机构：

NousResearch

创建时间：

2025-08-20

原始信息汇总

数据集概述

基本信息

数据集名称: eval-Cogito-v2-preview-70B-reasoning
语言: 英语
规模: 1K<n<10K
标签: 评估、基准测试

数据集结构

特征

benchmark_results (字符串类型)

配置

数据集包含多个基准测试配置，每个配置对应不同的数据文件：

aime24_groups: aime24/details.parquet
aime24_samples: aime24/conversations.parquet
aime25_groups: aime25/details.parquet
aime25_samples: aime25/conversations.parquet
arenahard_samples: arenahard/samples.jsonl
bbh_generative_groups: bbh_generative/details.parquet
bbh_generative_samples: bbh_generative/conversations.parquet
creative-writing-v3_samples: creative-writing-v3/samples.jsonl
drop_generative_nous_groups: drop_generative_nous/details.parquet
drop_generative_nous_samples: drop_generative_nous/conversations.parquet
eqbench3_samples: eqbench3/samples.jsonl
gpqa_diamond_groups: gpqa_diamond/details.parquet
gpqa_diamond_samples: gpqa_diamond/conversations.parquet
ifeval_groups: ifeval/details.parquet
ifeval_samples: ifeval/conversations.parquet
lcb-v6-aug2024+_samples: lcb-v6-aug2024+/samples.jsonl
lcb-v6-aug2024+_groups: lcb-v6-aug2024+/group.jsonl
math_500_groups: math_500/details.parquet
math_500_samples: math_500/conversations.parquet
mmlu_generative_groups: mmlu_generative/details.parquet
mmlu_generative_samples: mmlu_generative/conversations.parquet
mmlu_pro_groups: mmlu_pro/details.parquet
mmlu_pro_samples: mmlu_pro/conversations.parquet
musr_generative_groups: musr_generative/details.parquet
musr_generative_samples: musr_generative/conversations.parquet
obqa_generative_groups: obqa_generative/details.parquet
obqa_generative_samples: obqa_generative/conversations.parquet
rewardbench_samples: rewardbench/samples.jsonl
simpleqa_nous_groups: simpleqa_nous/details.parquet
simpleqa_nous_samples: simpleqa_nous/conversations.parquet

评估结果摘要

基准测试性能

基准测试	得分	指标	样本数	过长率
aime24	0.322	math_pass@1:64_samples	64	35.2%
aime25	0.221	math_pass@1:64_samples	64	33.3%
arenahard	0.869	eval/overall_winrate	500	0.0%
bbh_generative	0.893	extractive_match	1	2.9%
creative-writing-v3	0.636	creative_writing_score	96	0.0%
drop_generative_nous	0.860	drop_acc	1	0.8%
eqbench3	0.657	eqbench_score	135	0.0%
gpqa_diamond	0.591	gpqa_pass@1:8_samples	8	15.8%
ifeval	0.562	inst_level_loose_acc	1	1.7%
lcb-v6-aug2024+	0.321	eval/pass_1	1	41.3%
math_500	0.883	math_pass@1:4_samples	4	5.3%
mmlu_generative	0.910	extractive_match	1	0.8%
mmlu_pro	0.799	pass@1:1_samples	1	4.9%
musr_generative	0.635	extractive_match	1	2.6%
obqa_generative	0.958	extractive_match	1	0.4%
rewardbench	0.638	eval/percent_correct	1	0.4%
simpleqa_nous	0.233	fuzzy_match	1	1.2%

总体统计

总过长率: 5,705 / 64,523 样本 (8.8%) 缺少闭合 </think> 标签
评估模型: cogito-thinking, cogito-70b-thinking-reward-redo, cogito-70b-reasoning
温度设置: 主要使用 0.6

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，eval-Cogito-v2-preview-70B-reasoning数据集通过整合17个权威基准测试构建而成，涵盖数学推理、常识问答、创造性写作等多维度能力评估。其采用标准化数据采集流程，每个基准均包含详细元数据（details.parquet）和对话样本（conversations.parquet或samples.jsonl），通过严格的质控机制确保数据一致性，例如对64,523个样本进行闭合标签验证，构建过程注重评估场景的真实性和技术指标的完备性。

特点

该数据集最显著的特征在于其多模态评估体系，覆盖从基础认知到高阶推理的完整能力光谱。具体包含AIME数学竞赛题、GPQA钻石级科学问答、创造性写作评分等特色模块，且每个基准均提供标准误差统计和过长生成长率指标（如lcb-v6-aug2024+基准过长生成长率达41.3%）。数据集采用分层存储结构，支持按需调用特定评估模块，其英语语料规模在1K到10K之间，兼具评估深度与操作灵活性。

使用方法

研究人员可通过HuggingFace数据集的config_name参数选择特定评估模块，例如加载aime24_groups配置获取数学竞赛详细元数据，或调用arenahard_samples进行对抗性测试。使用时应参照各基准的专属评估指标（如math_pass@1、extractive_match等），配合温度参数0.6的推理设置以复现原始实验条件。数据集支持parquet和jsonl格式解析，建议结合标准误差数据开展统计显著性检验，且需特别注意过长生成长样本对评估结果的影响。

背景与挑战

背景概述

eval-Cogito-v2-preview-70B-reasoning数据集作为人工智能评测领域的重要资源，由Cogito研究团队于近期构建，专注于大规模语言模型的推理能力评估。该数据集整合了数学推理、常识问答、创造性写作等16个多维评测基准，旨在系统化衡量模型在复杂认知任务中的表现。其构建基于严格的学术标准，通过覆盖MMLU、GPQA、AIME等权威测试集，为模型能力评估提供了全面且可量化的科学依据，显著推动了语言模型评测范式的标准化进程。

当前挑战

该数据集核心挑战在于解决多领域推理任务评估的异构性难题，需在数学证明、逻辑推理和创造性思维等差异显著的认知维度建立统一评估框架。构建过程中面临标注一致性与质量控制的技术瓶颈，尤其体现在思维链标注的完整性保障上——数据集中存在8.8%的样本缺失思维链终止标签。此外，不同基准测试的指标对齐与标准化处理要求复杂的统计归一化方法，而部分任务如AIME数学推理的过长响应样本比例超过35%，对评估流程的稳定性构成显著挑战。

常用场景

经典使用场景

在人工智能推理能力评估领域，eval-Cogito-v2-preview-70B-reasoning数据集被广泛用于测试大语言模型的多维度认知性能。该数据集通过整合数学推理、常识问答、创造性写作等多样化任务，为模型提供系统化的评估框架。研究者利用其结构化对话样本和详细评分指标，能够精确量化模型在复杂语境下的逻辑推理能力和知识应用水平，为模型优化提供关键参照。

衍生相关工作

该数据集的发布催生了多项重要研究，包括基于其评估框架的模型对比分析和能力溯源研究。相关工作聚焦于探索模型在数学推理、常识问答等子任务上的表现差异，并衍生出新的评估指标和方法。这些研究不仅深化了对大语言模型认知机制的理解，也为后续更精细化的评估体系构建奠定了理论基础。

数据集最近研究