eval-Cogito-v2-preview-70B-nonreasoning

Name: eval-Cogito-v2-preview-70B-nonreasoning
Creator: NousResearch
Published: 2025-08-28 16:35:10
License: 暂无描述

Hugging Face2025-08-28 更新2025-08-29 收录

下载链接：

https://huggingface.co/datasets/NousResearch/eval-Cogito-v2-preview-70B-nonreasoning

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多种配置及其对应的数据文件路径。每个配置都有特定的名称，包括指向 'parquet' 或 'jsonl' 文件的路径。数据集包括一个名为 'benchmark_results' 的特征，其数据类型为 'string'。数据集的语言为英语，大小类别在 1K 到 10K 之间。数据集的标签包括 'evaluation' 和 'benchmarks'。文件还包含了不同基准测试的评价结果，包括指标、分数以及其他相关信息，如评价时间、温度和过长的样本率。

提供机构：

NousResearch

创建时间：

2025-08-20

原始信息汇总

数据集概述

基本信息

数据集名称: cogito-70b-nonthinking Evaluation Results
语言: 英语 (en)
数据规模: 1K<n<10K
标签: 评估、基准测试

数据集结构

特征

benchmark_results (string)

配置列表

aime24_groups
aime24_samples
aime25_groups
aime25_samples
arenahard_samples
bbh_generative_groups
bbh_generative_samples
creative-writing-v3_samples
drop_generative_nous_groups
drop_generative_nous_samples
eqbench3_samples
gpqa_diamond_groups
gpqa_diamond_samples
ifeval_groups
ifeval_samples
lcb-v6-aug2024+_samples
lcb-v6-aug2024+_groups
math_500_groups
math_500_samples
mmlu_generative_groups
mmlu_generative_samples
mmlu_pro_groups
mmlu_pro_samples
musr_generative_groups
musr_generative_samples
obqa_generative_groups
obqa_generative_samples
rewardbench_samples
simpleqa_nous_groups
simpleqa_nous_samples

评估结果汇总

基准测试性能指标

基准测试	得分	指标	样本数	过长率
aime24	0.122	math_pass@1:64_samples	64	100.0%
aime25	0.060	math_pass@1:64_samples	64	100.0%
arenahard	0.819	eval/overall_winrate	500	0.0%
bbh_generative	0.876	extractive_match	1	100.0%
creative-writing-v3	0.655	creative_writing_score	96	0.0%
drop_generative_nous	0.841	drop_acc	1	100.0%
eqbench3	0.681	eqbench_score	135	0.0%
gpqa_diamond	0.528	gpqa_pass@1:8_samples	8	100.0%
ifeval	0.927	inst_level_loose_acc	1	100.0%
lcb-v6-aug2024+	0.272	eval/pass_1	1	100.0%
math_500	0.756	math_pass@1:4_samples	4	100.0%
mmlu_generative	0.905	extractive_match	1	100.0%
mmlu_pro	0.760	pass@1:1_samples	1	100.0%
musr_generative	0.592	extractive_match	1	100.0%
obqa_generative	0.942	extractive_match	1	100.0%
rewardbench	0.627	eval/percent_correct	1	94.5%
simpleqa_nous	0.227	fuzzy_match	1	100.0%

总体统计

总样本数: 64,523
过长样本比例: 98.7% (63,690个样本缺少闭合</think>标签)

详细评估配置

所有评估均使用cogito-70b-nonthinking或cogito-70b-arena-nothink模型，温度参数主要为0.6，各基准测试具有特定的评估时间和样本特征。

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，eval-Cogito-v2-preview-70B-nonreasoning数据集通过整合17个权威基准测试构建而成，涵盖数学推理、常识问答、创造性写作等多维度能力评估。其构建过程采用标准化数据采集流程，每个基准测试均包含详细元数据与对话样本，以Parquet和JSONL格式存储，确保数据结构的规范性与可扩展性。数据集通过严格的质量校验机制，保留原始评估环境中的温度参数、时间戳及异常样本标记，为模型性能分析提供高精度数据支撑。

特点

该数据集核心特征体现在其多模态评估体系与细粒度指标设计上，覆盖AIME数学竞赛、MMLU专业学科测试、Creative-Writing创作评估等差异化场景。每个基准测试均配备标准化评分矩阵，包括精确匹配率、胜率统计及误差分析，并特别标注了过长生成长文本比例等异常模式。数据集语言纯度为英语，样本规模介于1K至10K之间，兼具评估全面性与数据可管理性，为大型语言模型的综合能力诊断提供立体化观测维度。

使用方法

研究人员可通过HuggingFace平台按需加载特定评估模块，例如调用aime24_groups配置获取数学推理测试元数据，或使用arenahard_samples提取对战评估原始对话。数据集支持分模块加载与联合分析，用户可基于标准评估指标对比模型在不同能力维度的表现，亦可通过过长生成本统计诊断模型输出稳定性。各基准测试均提供标准化得分接口与误差范围参考，支持跨模型性能对标与归因分析。

背景与挑战

背景概述

eval-Cogito-v2-preview-70B-nonreasoning数据集是面向大语言模型综合能力评估的基准测试集合，由Cogito研究团队于2024年构建。该数据集整合了包括数学推理（AIME24/25、MATH500）、常识问答（BBH、OBQA）、专业领域知识（MMLU、GPQA）、创造性写作及安全性评估（RewardBench）等16个权威子基准，旨在全面衡量模型在多元任务中的性能表现。其设计遵循标准化评估范式，通过结构化对话样本和指标量化体系，为大语言模型的能力演进提供了关键参照系，推动了可解释性人工智能评估方法论的发展。

当前挑战

该数据集需应对大语言模型多维度能力评估的复杂性挑战，包括数学推理的符号运算泛化性、常识问答的语境依赖性、创造性任务的主观评分一致性，以及安全对齐评估的价值偏好量化难题。构建过程中面临多源基准的标准化整合挑战，需统一不同评估协议的指标体系和数据格式；同时存在样本长度控制与标签完整性风险，数据显示98.7%的样本存在思维链标签缺失，反映出生成式评估中输出规范化的技术难点。

常用场景

经典使用场景

在人工智能模型评估领域，eval-Cogito-v2-preview-70B-nonreasoning数据集被广泛用于基准测试，涵盖数学推理、常识问答、创造性写作等多个维度。该数据集通过标准化评估流程，为研究人员提供了统一的性能对比平台，特别是在大规模语言模型的综合能力评估中展现出重要价值。其多模态评估框架能够全面捕捉模型在不同任务中的表现差异，为模型优化提供数据支撑。

解决学术问题

该数据集有效解决了大语言模型评估中缺乏统一标准的问题，通过整合多个权威基准测试如MMLU、BBH和GPQA，提供了跨领域的综合评估方案。其在学术研究中的意义在于建立了可复现的评估体系，帮助研究者识别模型在数学推理、逻辑判断和创造性任务中的具体缺陷，推动了模型透明度与可解释性研究的发展。

衍生相关工作

基于该数据集衍生的经典工作包括新型评估指标的提出、多任务学习框架的优化以及模型能力边界的研究。例如在ArenaHard基准测试中发展的对比评估方法，以及在Creative-Writing-v3任务中启发的文本质量评估体系。这些工作共同推动了评估方法论的发展，为后续研究提供了重要理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集