five

eval-Cogito-v2-preview-70B-nonreasoning

收藏
Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/NousResearch/eval-Cogito-v2-preview-70B-nonreasoning
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了多种配置及其对应的数据文件路径。每个配置都有特定的名称,包括指向 'parquet' 或 'jsonl' 文件的路径。数据集包括一个名为 'benchmark_results' 的特征,其数据类型为 'string'。数据集的语言为英语,大小类别在 1K 到 10K 之间。数据集的标签包括 'evaluation' 和 'benchmarks'。文件还包含了不同基准测试的评价结果,包括指标、分数以及其他相关信息,如评价时间、温度和过长的样本率。
提供机构:
NousResearch
创建时间:
2025-08-20
原始信息汇总

数据集概述

基本信息

  • 数据集名称: cogito-70b-nonthinking Evaluation Results
  • 语言: 英语 (en)
  • 数据规模: 1K<n<10K
  • 标签: 评估、基准测试

数据集结构

特征

  • benchmark_results (string)

配置列表

  • aime24_groups
  • aime24_samples
  • aime25_groups
  • aime25_samples
  • arenahard_samples
  • bbh_generative_groups
  • bbh_generative_samples
  • creative-writing-v3_samples
  • drop_generative_nous_groups
  • drop_generative_nous_samples
  • eqbench3_samples
  • gpqa_diamond_groups
  • gpqa_diamond_samples
  • ifeval_groups
  • ifeval_samples
  • lcb-v6-aug2024+_samples
  • lcb-v6-aug2024+_groups
  • math_500_groups
  • math_500_samples
  • mmlu_generative_groups
  • mmlu_generative_samples
  • mmlu_pro_groups
  • mmlu_pro_samples
  • musr_generative_groups
  • musr_generative_samples
  • obqa_generative_groups
  • obqa_generative_samples
  • rewardbench_samples
  • simpleqa_nous_groups
  • simpleqa_nous_samples

评估结果汇总

基准测试性能指标

基准测试 得分 指标 样本数 过长率
aime24 0.122 math_pass@1:64_samples 64 100.0%
aime25 0.060 math_pass@1:64_samples 64 100.0%
arenahard 0.819 eval/overall_winrate 500 0.0%
bbh_generative 0.876 extractive_match 1 100.0%
creative-writing-v3 0.655 creative_writing_score 96 0.0%
drop_generative_nous 0.841 drop_acc 1 100.0%
eqbench3 0.681 eqbench_score 135 0.0%
gpqa_diamond 0.528 gpqa_pass@1:8_samples 8 100.0%
ifeval 0.927 inst_level_loose_acc 1 100.0%
lcb-v6-aug2024+ 0.272 eval/pass_1 1 100.0%
math_500 0.756 math_pass@1:4_samples 4 100.0%
mmlu_generative 0.905 extractive_match 1 100.0%
mmlu_pro 0.760 pass@1:1_samples 1 100.0%
musr_generative 0.592 extractive_match 1 100.0%
obqa_generative 0.942 extractive_match 1 100.0%
rewardbench 0.627 eval/percent_correct 1 94.5%
simpleqa_nous 0.227 fuzzy_match 1 100.0%

总体统计

  • 总样本数: 64,523
  • 过长样本比例: 98.7% (63,690个样本缺少闭合</think>标签)

详细评估配置

所有评估均使用cogito-70b-nonthinking或cogito-70b-arena-nothink模型,温度参数主要为0.6,各基准测试具有特定的评估时间和样本特征。

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能评估领域,eval-Cogito-v2-preview-70B-nonreasoning数据集通过整合17个权威基准测试构建而成,涵盖数学推理、常识问答、创造性写作等多维度能力评估。其构建过程采用标准化数据采集流程,每个基准测试均包含详细元数据与对话样本,以Parquet和JSONL格式存储,确保数据结构的规范性与可扩展性。数据集通过严格的质量校验机制,保留原始评估环境中的温度参数、时间戳及异常样本标记,为模型性能分析提供高精度数据支撑。
特点
该数据集核心特征体现在其多模态评估体系与细粒度指标设计上,覆盖AIME数学竞赛、MMLU专业学科测试、Creative-Writing创作评估等差异化场景。每个基准测试均配备标准化评分矩阵,包括精确匹配率、胜率统计及误差分析,并特别标注了过长生成长文本比例等异常模式。数据集语言纯度为英语,样本规模介于1K至10K之间,兼具评估全面性与数据可管理性,为大型语言模型的综合能力诊断提供立体化观测维度。
使用方法
研究人员可通过HuggingFace平台按需加载特定评估模块,例如调用aime24_groups配置获取数学推理测试元数据,或使用arenahard_samples提取对战评估原始对话。数据集支持分模块加载与联合分析,用户可基于标准评估指标对比模型在不同能力维度的表现,亦可通过过长生成本统计诊断模型输出稳定性。各基准测试均提供标准化得分接口与误差范围参考,支持跨模型性能对标与归因分析。
背景与挑战
背景概述
eval-Cogito-v2-preview-70B-nonreasoning数据集是面向大语言模型综合能力评估的基准测试集合,由Cogito研究团队于2024年构建。该数据集整合了包括数学推理(AIME24/25、MATH500)、常识问答(BBH、OBQA)、专业领域知识(MMLU、GPQA)、创造性写作及安全性评估(RewardBench)等16个权威子基准,旨在全面衡量模型在多元任务中的性能表现。其设计遵循标准化评估范式,通过结构化对话样本和指标量化体系,为大语言模型的能力演进提供了关键参照系,推动了可解释性人工智能评估方法论的发展。
当前挑战
该数据集需应对大语言模型多维度能力评估的复杂性挑战,包括数学推理的符号运算泛化性、常识问答的语境依赖性、创造性任务的主观评分一致性,以及安全对齐评估的价值偏好量化难题。构建过程中面临多源基准的标准化整合挑战,需统一不同评估协议的指标体系和数据格式;同时存在样本长度控制与标签完整性风险,数据显示98.7%的样本存在思维链标签缺失,反映出生成式评估中输出规范化的技术难点。
常用场景
经典使用场景
在人工智能模型评估领域,eval-Cogito-v2-preview-70B-nonreasoning数据集被广泛用于基准测试,涵盖数学推理、常识问答、创造性写作等多个维度。该数据集通过标准化评估流程,为研究人员提供了统一的性能对比平台,特别是在大规模语言模型的综合能力评估中展现出重要价值。其多模态评估框架能够全面捕捉模型在不同任务中的表现差异,为模型优化提供数据支撑。
解决学术问题
该数据集有效解决了大语言模型评估中缺乏统一标准的问题,通过整合多个权威基准测试如MMLU、BBH和GPQA,提供了跨领域的综合评估方案。其在学术研究中的意义在于建立了可复现的评估体系,帮助研究者识别模型在数学推理、逻辑判断和创造性任务中的具体缺陷,推动了模型透明度与可解释性研究的发展。
衍生相关工作
基于该数据集衍生的经典工作包括新型评估指标的提出、多任务学习框架的优化以及模型能力边界的研究。例如在ArenaHard基准测试中发展的对比评估方法,以及在Creative-Writing-v3任务中启发的文本质量评估体系。这些工作共同推动了评估方法论的发展,为后续研究提供了重要理论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作