cybench-results

Hugging Face2025-10-31 更新2025-11-01 收录

下载链接：

https://huggingface.co/datasets/lvogel123/cybench-results

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多个配置的结果，每个配置都是针对不同模型和任务的训练结果，其中包括了模型的准确度、标准误差等信息。每个配置都包含一个训练集，用于模型的训练。

创建时间：

2025-10-30

原始信息汇总

数据集概述

基本信息

数据集名称: lvogel123/cybench-results
配置数量: 13个独立配置
数据格式: 结构化评估结果

配置详情

评估结果配置

cybench_deepseek_v3_2_exp_20251029-123525_results
cybench_glm_4_6_20251029-123431_results
cybench_gpt_5_20251029-103634_results
cybench_gpt_5_20251029-104049_results
cybench_grok_4_20251031-092627_results
cybench_grok_4_20251031-164141_results
cybench_grok_4_20251031-165130_results
cybench_grok_4_20251031-202348_results
cybench_kimi_k2_instruct_0905_20251031-073828_results
cybench_llama_4_maverick_17b_128e_instruct_20251031-165343_results
cybench_qwen3_235b_a22b_thinking_2507_20251030-114447_results

样本数据配置

cybench_grok_4_20251031-165130_samples

统计信息配置

cybench_grok_4_20251031-165130_stats

特征结构

核心特征

log_path: 字符串类型
eval_id: 字符串类型
run_id: 字符串类型
created: 字符串类型
task: 字符串类型
task_id: 字符串类型
model: 字符串类型

评估指标特征

total_samples: 整型或空值
completed_samples: 整型或空值
accuracy: 浮点型
stderr: 浮点型

样本详细特征

sample_id: 字符串类型
epoch: 整型
target: 字符串类型
messages: 字符串类型
meta_eval_name: 字符串类型
meta_eval_file_path: 字符串类型
meta_variant_name: 字符串类型
meta_first_solve_time: 整型
meta_category: 字符串类型
meta_competition: 字符串类型

统计特征

started_at: 字符串类型
completed_at: 字符串类型
usage_model: 字符串类型
input_tokens: 整型
output_tokens: 整型
total_tokens: 整型

数据规模

总下载大小: 5552-18916字节不等
数据集大小: 253-30770字节不等
样本数量: 1-38个示例不等
分割方式: 所有配置仅包含训练分割

模型覆盖

DeepSeek V3
GLM-4
GPT-5
Grok-4
Kimi K2
Llama 4 Maverick
Qwen3

搜集汇总

数据集介绍

构建方式

在人工智能评测领域，cybench-results数据集通过系统化评估流程构建而成，涵盖多个前沿大语言模型的性能数据。该数据集整合了来自DeepSeek、GLM、GPT-5、Grok-4等模型的评测结果，每条记录包含评估标识、任务类型、样本完成度及准确率等核心指标，通过标准化实验流程确保数据的一致性和可比性。

使用方法

研究人员可通过加载特定配置名称获取对应模型的评测结果，利用内置的评估标识和任务编号进行横向对比分析。对于需要深入研究的场景，可调用包含样本详情的配置单元，通过消息内容和解题时间等字段开展细粒度模型行为研究。数据集采用标准表格结构，支持直接导入主流数据分析框架进行统计计算和可视化呈现。

背景与挑战

背景概述

在人工智能评测领域，随着大语言模型技术的快速发展，对模型性能进行标准化评估的需求日益迫切。CyBench数据集作为专门针对大语言模型评测的基准数据集，其构建旨在系统化评估模型在多样化任务中的表现。该数据集通过整合多个前沿模型（如GPT-5、Grok-4、DeepSeek等）的评测结果，为研究社区提供了统一的性能比较框架。其核心研究问题聚焦于量化模型的准确率、任务完成度及稳定性，推动了大语言模型评测从定性分析向定量评估的范式转变。

当前挑战

在解决大语言模型评测问题时，CyBench面临模型异构性带来的评估标准统一难题，不同模型架构与训练策略导致性能对比存在偏差。数据集构建过程中，需处理评测日志的多元异构数据整合，包括任务类型差异、样本完成度统计及精度计算的一致性保障。同时，评测流程中部分模型存在数据缺失问题（如total_samples字段为null），需设计容错机制以确保评估结果的完整性与可比性。

常用场景

经典使用场景

在大型语言模型评估领域，cybench-results数据集作为基准测试工具，被广泛应用于系统化比较不同模型在多样化任务上的性能表现。该数据集通过记录多个前沿模型如GPT-5、Grok-4等在特定任务中的准确率、完成样本数等关键指标，为研究者提供了标准化的模型能力评估框架。其典型应用场景包括模型能力横向对比、任务适应性分析以及模型迭代过程中的性能追踪，这些评估实践对于推动语言模型技术发展具有重要参考价值。

解决学术问题

该数据集有效解决了语言模型评估中缺乏统一基准的学术难题，通过结构化存储多模型测试结果，为量化分析模型泛化能力提供了数据支撑。其包含的准确率指标和标准误差数据，能够辅助研究者识别模型在特定任务中的性能瓶颈，进而探索模型架构优化方向。这种系统化的评估方法显著提升了语言模型研究领域的可复现性，为理解模型能力边界提供了实证依据。

实际应用

在产业实践中，该数据集为模型选型提供了决策支持，企业可根据具体应用场景筛选匹配的模型架构。其记录的token使用量等资源消耗指标，为部署成本优化提供了量化参考。教育机构亦可借助该数据集设计模型评估课程，帮助学生建立系统的语言模型性能分析能力。这些应用场景体现了数据集在连接理论研究与工程实践中的桥梁作用。

数据集最近研究