five

eval-Cogito-v2-preview-405B-nonreasoning

收藏
Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/NousResearch/eval-Cogito-v2-preview-405B-nonreasoning
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了多个用于评估和基准测试的基准,如aime24, aime25, arenahard, bbh_generative等。每个基准都有其自己的指标、分数和标准误差。数据集还包括用于评估的模型、评估时间、温度设置和过长样本的比率。该数据集旨在用于评估和基准测试,涵盖各种任务和领域。
提供机构:
NousResearch
创建时间:
2025-08-16
原始信息汇总

Cogito-405B 非推理评估数据集概述

数据集基本信息

  • 数据集名称: eval-Cogito-v2-preview-405B-nonreasoning
  • 语言: 英语 (en)
  • 数据规模: 1K<n<10K
  • 标签: 评估、基准测试

数据结构

数据集包含多个配置,每个配置对应不同的基准测试任务,主要分为两种文件类型:

  • details.parquet/conversations.parquet: 用于存储组级别和样本级别的详细数据
  • samples.jsonl: 用于存储样本数据

基准测试配置

数据集包含以下基准测试配置:

数学推理类

  • aime24_groups / aime24_samples
  • aime25_groups / aime25_samples
  • math_500_groups / math_500_samples
  • gpqa_diamond_groups / gpqa_diamond_samples

问答与理解类

  • bbh_generative_groups / bbh_generative_samples
  • drop_generative_nous_groups / drop_generative_nous_samples
  • mmlu_generative_groups / mmlu_generative_samples
  • mmlu_pro_groups / mmlu_pro_samples
  • musr_generative_groups / musr_generative_samples
  • obqa_generative_groups / obqa_generative_samples
  • simpleqa_nous_groups / simpleqa_nous_samples

其他评估类

  • arenahard_samples
  • creative-writing-v3_samples
  • eqbench3_samples
  • ifeval_groups / ifeval_samples
  • lcb-v6-aug2024+_samples / lcb-v6-aug2024+_groups
  • rewardbench_samples

主要特征

  • 核心特征: benchmark_results (字符串类型)
  • 评估指标: 包含多种评估指标,如准确率、通过率、胜率等
  • 样本规模: 从数个样本到上万个样本不等

数据来源

数据集来自 NousResearch,专门用于评估 Cogito-405B 模型在不同基准测试任务上的性能表现。

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能评估领域,eval-Cogito-v2-preview-405B-nonreasoning数据集通过整合多个权威基准测试构建而成,涵盖数学推理、常识问答、创造性写作等多样化任务。该数据集采用标准化数据采集流程,从AIME、MMLU、GPQA等知名评估基准中抽取样本,并通过parquet和jsonl格式进行高效存储,确保数据结构的规范性与可扩展性。每个子集均经过严格的质控筛选,保留了原始评估任务的复杂性和真实性。
特点
本数据集的核心特征体现在其多维度评估体系与高密度挑战性样本的融合。其覆盖17个专项评估领域,包含超过6万条样本数据,且多数样本具备思维链缺失标记特性,为研究非推理能力模型提供了独特视角。数据集中不同任务的评分指标经过科学设计,如math_pass@1、extractive_match等,能够精确反映模型在特定能力维度的表现。样本长度分布呈现显著差异,为分析模型生成质量与长度相关性提供了丰富数据基础。
使用方法
研究人员可通过HuggingFace平台直接加载特定评估配置,如aime24_groups或bbh_generative_samples等子数据集。使用时应首先明确评估目标,选择相应基准配置,利用内置的评估指标进行模型性能分析。数据集支持标准机器学习流程,可进行批量推理测试、结果对比和误差分析。建议结合提供的标准误差数据开展统计显著性检验,并注意不同子集间评估标准的差异性以确保结果可靠性。
背景与挑战
背景概述
eval-Cogito-v2-preview-405B-nonreasoning数据集作为大规模语言模型评估体系的重要组成部分,由前沿人工智能研究机构于2024年推出,旨在系统化测评大模型在多领域任务中的综合性能。该数据集整合了数学推理(AIME、GPQA)、常识问答(BBH、OBQA)、指令遵循(IFEval)、创造性写作等十六个专项评估模块,通过超四万条样本构建起多维评估矩阵。其创新性地采用非推理模式下的性能对标机制,为衡量语言模型在真实场景中的泛化能力与稳定性提供了标准化量尺,显著推动了人工智能评估方法论的发展。
当前挑战
该数据集核心挑战在于解决大模型评估中存在的维度单一性与泛化性不足问题,需在数学推理、指令遵循、创造性生成等异质任务间建立统一评估框架。构建过程中面临多模态评估指标融合的技术难题,包括不同评估体系间的分数归一化处理、长文本生成质量的量化评估,以及高达98.7%的样本缺失思维链标记导致的评估偏差。此外还需协调十六个子数据集在数据格式、评估协议和采样策略上的差异性,确保评估结果的可比性与统计显著性。
常用场景
经典使用场景
在人工智能评估领域,eval-Cogito-v2-preview-405B-nonreasoning数据集被广泛应用于大语言模型的多维度能力测试。该数据集通过整合数学推理、常识问答、创造性写作等多样化任务,为研究者提供了标准化的模型性能对比平台,尤其在零样本和少样本学习场景下展现出显著价值。
衍生相关工作
基于该数据集衍生了多项重要研究,包括思维链推理优化、奖励模型训练方法改进以及多模态评估框架扩展。这些工作不仅深化了对模型认知机制的理解,还催生了新一代评估工具如ArenaHard和EqBench的诞生,持续推动着评估范式的创新。
数据集最近研究
最新研究方向
在大规模语言模型评估领域,eval-Cogito-v2-preview-405B-nonreasoning数据集正推动多维度能力评测体系的发展。该数据集整合了数学推理(AIME24/25)、常识问答(MMLU)、创造性写作(creative-writing-v3)等17个专项基准,通过非推理模式下的性能表现揭示模型底层能力边界。当前研究聚焦于解决思维链标记缺失引发的过长生成长问题(98.7%样本存在</think>标记未闭合),这一现象促使学界重新审视推理步骤规范化对评估可靠性的影响。随着GPQA钻石级科学问答和ArenaHard对抗性评测等新兴基准的引入,该数据集已成为衡量超大规模模型在复杂任务中泛化能力的关键标尺,其多模态评估框架亦为下一代通用人工智能系统的标准化测评提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作