eval-Cogito-v2-preview-70B-nonreasoning
收藏Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/NousResearch/eval-Cogito-v2-preview-70B-nonreasoning
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了多种配置及其对应的数据文件路径。每个配置都有特定的名称,包括指向 'parquet' 或 'jsonl' 文件的路径。数据集包括一个名为 'benchmark_results' 的特征,其数据类型为 'string'。数据集的语言为英语,大小类别在 1K 到 10K 之间。数据集的标签包括 'evaluation' 和 'benchmarks'。文件还包含了不同基准测试的评价结果,包括指标、分数以及其他相关信息,如评价时间、温度和过长的样本率。
提供机构:
NousResearch
创建时间:
2025-08-20
原始信息汇总
数据集概述
基本信息
- 数据集名称: cogito-70b-nonthinking Evaluation Results
- 语言: 英语 (en)
- 数据规模: 1K<n<10K
- 标签: 评估、基准测试
数据集结构
特征
- benchmark_results (string)
配置列表
- aime24_groups
- aime24_samples
- aime25_groups
- aime25_samples
- arenahard_samples
- bbh_generative_groups
- bbh_generative_samples
- creative-writing-v3_samples
- drop_generative_nous_groups
- drop_generative_nous_samples
- eqbench3_samples
- gpqa_diamond_groups
- gpqa_diamond_samples
- ifeval_groups
- ifeval_samples
- lcb-v6-aug2024+_samples
- lcb-v6-aug2024+_groups
- math_500_groups
- math_500_samples
- mmlu_generative_groups
- mmlu_generative_samples
- mmlu_pro_groups
- mmlu_pro_samples
- musr_generative_groups
- musr_generative_samples
- obqa_generative_groups
- obqa_generative_samples
- rewardbench_samples
- simpleqa_nous_groups
- simpleqa_nous_samples
评估结果汇总
基准测试性能指标
| 基准测试 | 得分 | 指标 | 样本数 | 过长率 |
|---|---|---|---|---|
| aime24 | 0.122 | math_pass@1:64_samples | 64 | 100.0% |
| aime25 | 0.060 | math_pass@1:64_samples | 64 | 100.0% |
| arenahard | 0.819 | eval/overall_winrate | 500 | 0.0% |
| bbh_generative | 0.876 | extractive_match | 1 | 100.0% |
| creative-writing-v3 | 0.655 | creative_writing_score | 96 | 0.0% |
| drop_generative_nous | 0.841 | drop_acc | 1 | 100.0% |
| eqbench3 | 0.681 | eqbench_score | 135 | 0.0% |
| gpqa_diamond | 0.528 | gpqa_pass@1:8_samples | 8 | 100.0% |
| ifeval | 0.927 | inst_level_loose_acc | 1 | 100.0% |
| lcb-v6-aug2024+ | 0.272 | eval/pass_1 | 1 | 100.0% |
| math_500 | 0.756 | math_pass@1:4_samples | 4 | 100.0% |
| mmlu_generative | 0.905 | extractive_match | 1 | 100.0% |
| mmlu_pro | 0.760 | pass@1:1_samples | 1 | 100.0% |
| musr_generative | 0.592 | extractive_match | 1 | 100.0% |
| obqa_generative | 0.942 | extractive_match | 1 | 100.0% |
| rewardbench | 0.627 | eval/percent_correct | 1 | 94.5% |
| simpleqa_nous | 0.227 | fuzzy_match | 1 | 100.0% |
总体统计
- 总样本数: 64,523
- 过长样本比例: 98.7% (63,690个样本缺少闭合
</think>标签)
详细评估配置
所有评估均使用cogito-70b-nonthinking或cogito-70b-arena-nothink模型,温度参数主要为0.6,各基准测试具有特定的评估时间和样本特征。
搜集汇总
数据集介绍

构建方式
在人工智能评估领域,eval-Cogito-v2-preview-70B-nonreasoning数据集通过整合17个权威基准测试构建而成,涵盖数学推理、常识问答、创造性写作等多维度能力评估。其构建过程采用标准化数据采集流程,每个基准测试均包含详细元数据与对话样本,以Parquet和JSONL格式存储,确保数据结构的规范性与可扩展性。数据集通过严格的质量校验机制,保留原始评估环境中的温度参数、时间戳及异常样本标记,为模型性能分析提供高精度数据支撑。
特点
该数据集核心特征体现在其多模态评估体系与细粒度指标设计上,覆盖AIME数学竞赛、MMLU专业学科测试、Creative-Writing创作评估等差异化场景。每个基准测试均配备标准化评分矩阵,包括精确匹配率、胜率统计及误差分析,并特别标注了过长生成长文本比例等异常模式。数据集语言纯度为英语,样本规模介于1K至10K之间,兼具评估全面性与数据可管理性,为大型语言模型的综合能力诊断提供立体化观测维度。
使用方法
研究人员可通过HuggingFace平台按需加载特定评估模块,例如调用aime24_groups配置获取数学推理测试元数据,或使用arenahard_samples提取对战评估原始对话。数据集支持分模块加载与联合分析,用户可基于标准评估指标对比模型在不同能力维度的表现,亦可通过过长生成本统计诊断模型输出稳定性。各基准测试均提供标准化得分接口与误差范围参考,支持跨模型性能对标与归因分析。
背景与挑战
背景概述
eval-Cogito-v2-preview-70B-nonreasoning数据集是面向大语言模型综合能力评估的基准测试集合,由Cogito研究团队于2024年构建。该数据集整合了包括数学推理(AIME24/25、MATH500)、常识问答(BBH、OBQA)、专业领域知识(MMLU、GPQA)、创造性写作及安全性评估(RewardBench)等16个权威子基准,旨在全面衡量模型在多元任务中的性能表现。其设计遵循标准化评估范式,通过结构化对话样本和指标量化体系,为大语言模型的能力演进提供了关键参照系,推动了可解释性人工智能评估方法论的发展。
当前挑战
该数据集需应对大语言模型多维度能力评估的复杂性挑战,包括数学推理的符号运算泛化性、常识问答的语境依赖性、创造性任务的主观评分一致性,以及安全对齐评估的价值偏好量化难题。构建过程中面临多源基准的标准化整合挑战,需统一不同评估协议的指标体系和数据格式;同时存在样本长度控制与标签完整性风险,数据显示98.7%的样本存在思维链标签缺失,反映出生成式评估中输出规范化的技术难点。
常用场景
经典使用场景
在人工智能模型评估领域,eval-Cogito-v2-preview-70B-nonreasoning数据集被广泛用于基准测试,涵盖数学推理、常识问答、创造性写作等多个维度。该数据集通过标准化评估流程,为研究人员提供了统一的性能对比平台,特别是在大规模语言模型的综合能力评估中展现出重要价值。其多模态评估框架能够全面捕捉模型在不同任务中的表现差异,为模型优化提供数据支撑。
解决学术问题
该数据集有效解决了大语言模型评估中缺乏统一标准的问题,通过整合多个权威基准测试如MMLU、BBH和GPQA,提供了跨领域的综合评估方案。其在学术研究中的意义在于建立了可复现的评估体系,帮助研究者识别模型在数学推理、逻辑判断和创造性任务中的具体缺陷,推动了模型透明度与可解释性研究的发展。
衍生相关工作
基于该数据集衍生的经典工作包括新型评估指标的提出、多任务学习框架的优化以及模型能力边界的研究。例如在ArenaHard基准测试中发展的对比评估方法,以及在Creative-Writing-v3任务中启发的文本质量评估体系。这些工作共同推动了评估方法论的发展,为后续研究提供了重要理论基础。
以上内容由遇见数据集搜集并总结生成



