eval-Cogito-v2-preview-70B-reasoning
收藏Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/NousResearch/eval-Cogito-v2-preview-70B-reasoning
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含多个数据集的集合,每个数据集都有不同的配置和文件路径。数据集的语言为英文,大小在1K到10K之间。数据集主要用于评估和基准测试,包括aime24、aime25、arenahard等。每个数据集都有详细的评估结果,包括分数、指标、样本数和过长的样本率。
提供机构:
NousResearch
创建时间:
2025-08-20
原始信息汇总
数据集概述
基本信息
- 数据集名称: eval-Cogito-v2-preview-70B-reasoning
- 语言: 英语
- 规模: 1K<n<10K
- 标签: 评估、基准测试
数据集结构
特征
- benchmark_results (字符串类型)
配置
数据集包含多个基准测试配置,每个配置对应不同的数据文件:
- aime24_groups: aime24/details.parquet
- aime24_samples: aime24/conversations.parquet
- aime25_groups: aime25/details.parquet
- aime25_samples: aime25/conversations.parquet
- arenahard_samples: arenahard/samples.jsonl
- bbh_generative_groups: bbh_generative/details.parquet
- bbh_generative_samples: bbh_generative/conversations.parquet
- creative-writing-v3_samples: creative-writing-v3/samples.jsonl
- drop_generative_nous_groups: drop_generative_nous/details.parquet
- drop_generative_nous_samples: drop_generative_nous/conversations.parquet
- eqbench3_samples: eqbench3/samples.jsonl
- gpqa_diamond_groups: gpqa_diamond/details.parquet
- gpqa_diamond_samples: gpqa_diamond/conversations.parquet
- ifeval_groups: ifeval/details.parquet
- ifeval_samples: ifeval/conversations.parquet
- lcb-v6-aug2024+_samples: lcb-v6-aug2024+/samples.jsonl
- lcb-v6-aug2024+_groups: lcb-v6-aug2024+/group.jsonl
- math_500_groups: math_500/details.parquet
- math_500_samples: math_500/conversations.parquet
- mmlu_generative_groups: mmlu_generative/details.parquet
- mmlu_generative_samples: mmlu_generative/conversations.parquet
- mmlu_pro_groups: mmlu_pro/details.parquet
- mmlu_pro_samples: mmlu_pro/conversations.parquet
- musr_generative_groups: musr_generative/details.parquet
- musr_generative_samples: musr_generative/conversations.parquet
- obqa_generative_groups: obqa_generative/details.parquet
- obqa_generative_samples: obqa_generative/conversations.parquet
- rewardbench_samples: rewardbench/samples.jsonl
- simpleqa_nous_groups: simpleqa_nous/details.parquet
- simpleqa_nous_samples: simpleqa_nous/conversations.parquet
评估结果摘要
基准测试性能
| 基准测试 | 得分 | 指标 | 样本数 | 过长率 |
|---|---|---|---|---|
| aime24 | 0.322 | math_pass@1:64_samples | 64 | 35.2% |
| aime25 | 0.221 | math_pass@1:64_samples | 64 | 33.3% |
| arenahard | 0.869 | eval/overall_winrate | 500 | 0.0% |
| bbh_generative | 0.893 | extractive_match | 1 | 2.9% |
| creative-writing-v3 | 0.636 | creative_writing_score | 96 | 0.0% |
| drop_generative_nous | 0.860 | drop_acc | 1 | 0.8% |
| eqbench3 | 0.657 | eqbench_score | 135 | 0.0% |
| gpqa_diamond | 0.591 | gpqa_pass@1:8_samples | 8 | 15.8% |
| ifeval | 0.562 | inst_level_loose_acc | 1 | 1.7% |
| lcb-v6-aug2024+ | 0.321 | eval/pass_1 | 1 | 41.3% |
| math_500 | 0.883 | math_pass@1:4_samples | 4 | 5.3% |
| mmlu_generative | 0.910 | extractive_match | 1 | 0.8% |
| mmlu_pro | 0.799 | pass@1:1_samples | 1 | 4.9% |
| musr_generative | 0.635 | extractive_match | 1 | 2.6% |
| obqa_generative | 0.958 | extractive_match | 1 | 0.4% |
| rewardbench | 0.638 | eval/percent_correct | 1 | 0.4% |
| simpleqa_nous | 0.233 | fuzzy_match | 1 | 1.2% |
总体统计
- 总过长率: 5,705 / 64,523 样本 (8.8%) 缺少闭合
</think>标签 - 评估模型: cogito-thinking, cogito-70b-thinking-reward-redo, cogito-70b-reasoning
- 温度设置: 主要使用 0.6
搜集汇总
数据集介绍

构建方式
在人工智能评估领域,eval-Cogito-v2-preview-70B-reasoning数据集通过整合17个权威基准测试构建而成,涵盖数学推理、常识问答、创造性写作等多维度能力评估。其采用标准化数据采集流程,每个基准均包含详细元数据(details.parquet)和对话样本(conversations.parquet或samples.jsonl),通过严格的质控机制确保数据一致性,例如对64,523个样本进行闭合标签验证,构建过程注重评估场景的真实性和技术指标的完备性。
特点
该数据集最显著的特征在于其多模态评估体系,覆盖从基础认知到高阶推理的完整能力光谱。具体包含AIME数学竞赛题、GPQA钻石级科学问答、创造性写作评分等特色模块,且每个基准均提供标准误差统计和过长生成长率指标(如lcb-v6-aug2024+基准过长生成长率达41.3%)。数据集采用分层存储结构,支持按需调用特定评估模块,其英语语料规模在1K到10K之间,兼具评估深度与操作灵活性。
使用方法
研究人员可通过HuggingFace数据集的config_name参数选择特定评估模块,例如加载aime24_groups配置获取数学竞赛详细元数据,或调用arenahard_samples进行对抗性测试。使用时应参照各基准的专属评估指标(如math_pass@1、extractive_match等),配合温度参数0.6的推理设置以复现原始实验条件。数据集支持parquet和jsonl格式解析,建议结合标准误差数据开展统计显著性检验,且需特别注意过长生成长样本对评估结果的影响。
背景与挑战
背景概述
eval-Cogito-v2-preview-70B-reasoning数据集作为人工智能评测领域的重要资源,由Cogito研究团队于近期构建,专注于大规模语言模型的推理能力评估。该数据集整合了数学推理、常识问答、创造性写作等16个多维评测基准,旨在系统化衡量模型在复杂认知任务中的表现。其构建基于严格的学术标准,通过覆盖MMLU、GPQA、AIME等权威测试集,为模型能力评估提供了全面且可量化的科学依据,显著推动了语言模型评测范式的标准化进程。
当前挑战
该数据集核心挑战在于解决多领域推理任务评估的异构性难题,需在数学证明、逻辑推理和创造性思维等差异显著的认知维度建立统一评估框架。构建过程中面临标注一致性与质量控制的技术瓶颈,尤其体现在思维链标注的完整性保障上——数据集中存在8.8%的样本缺失思维链终止标签。此外,不同基准测试的指标对齐与标准化处理要求复杂的统计归一化方法,而部分任务如AIME数学推理的过长响应样本比例超过35%,对评估流程的稳定性构成显著挑战。
常用场景
经典使用场景
在人工智能推理能力评估领域,eval-Cogito-v2-preview-70B-reasoning数据集被广泛用于测试大语言模型的多维度认知性能。该数据集通过整合数学推理、常识问答、创造性写作等多样化任务,为模型提供系统化的评估框架。研究者利用其结构化对话样本和详细评分指标,能够精确量化模型在复杂语境下的逻辑推理能力和知识应用水平,为模型优化提供关键参照。
衍生相关工作
该数据集的发布催生了多项重要研究,包括基于其评估框架的模型对比分析和能力溯源研究。相关工作聚焦于探索模型在数学推理、常识问答等子任务上的表现差异,并衍生出新的评估指标和方法。这些研究不仅深化了对大语言模型认知机制的理解,也为后续更精细化的评估体系构建奠定了理论基础。
数据集最近研究
最新研究方向
在人工智能推理能力评估领域,eval-Cogito-v2数据集正推动多维度认知能力测评体系的发展。该数据集通过整合数学推理(AIME24/25)、常识推理(BBH)、创造性写作(creative-writing-v3)等16个专项评估模块,构建了覆盖逻辑推演、知识应用、创新生成的全方位评估框架。当前研究聚焦于提升模型在长链推理任务中的表现,特别是针对LCB-v6等复杂基准中41.3%的过长生成长度问题,探索动态思维链截断与语义完整性保持的平衡机制。同时,该数据集在奖励模型对齐领域展现出重要价值,通过RewardBench模块验证了安全性与事实性指标的协同优化路径,为构建兼具严谨性与创造性的通用人工智能系统提供关键评估依据。
以上内容由遇见数据集搜集并总结生成



