five

corral_runs_reports

收藏
Hugging Face2026-03-19 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/jablonkagroup/corral_runs_reports
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个AI模型评估配置,主要用于测试不同AI模型(包括Claude 4.5、GPT-4o和GPT-OSS-120B等)在各种任务环境中的表现。数据集包含以下关键信息: 1. 模型基本信息:模型名称、代理类型、运行环境、任务等级和类别 2. 性能指标:平均得分、总体成功率、多级通过率(Pass@1至Pass@5)、工具调用次数 3. 资源消耗:提示token数、补全token数、总token数、工具执行时长、基准测试时长 4. 任务结果:任务总数、工具详细度、任务结果详情、放弃试验次数 数据集包含多个配置版本,分别针对不同测试环境(如afm、catalyst、md等),每个配置包含训练集分割,样本数量从12到48不等。数据格式包含字符串、整型和浮点型等多种数据类型,适用于AI模型性能分析和比较研究。
创建时间:
2026-03-05
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作