corral_runs_reports

Hugging Face2026-03-19 更新2026-03-20 收录

下载链接：

https://huggingface.co/datasets/jablonkagroup/corral_runs_reports

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个AI模型评估配置，主要用于测试不同AI模型（包括Claude 4.5、GPT-4o和GPT-OSS-120B等）在各种任务环境中的表现。数据集包含以下关键信息： 1. 模型基本信息：模型名称、代理类型、运行环境、任务等级和类别 2. 性能指标：平均得分、总体成功率、多级通过率(Pass@1至Pass@5)、工具调用次数 3. 资源消耗：提示token数、补全token数、总token数、工具执行时长、基准测试时长 4. 任务结果：任务总数、工具详细度、任务结果详情、放弃试验次数数据集包含多个配置版本，分别针对不同测试环境（如afm、catalyst、md等），每个配置包含训练集分割，样本数量从12到48不等。数据格式包含字符串、整型和浮点型等多种数据类型，适用于AI模型性能分析和比较研究。

创建时间：

2026-03-05

5,000+

优质数据集

54 个

任务类型

进入经典数据集