corral_runs_reports
收藏Hugging Face2026-03-19 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/jablonkagroup/corral_runs_reports
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个AI模型评估配置,主要用于测试不同AI模型(包括Claude 4.5、GPT-4o和GPT-OSS-120B等)在各种任务环境中的表现。数据集包含以下关键信息:
1. 模型基本信息:模型名称、代理类型、运行环境、任务等级和类别
2. 性能指标:平均得分、总体成功率、多级通过率(Pass@1至Pass@5)、工具调用次数
3. 资源消耗:提示token数、补全token数、总token数、工具执行时长、基准测试时长
4. 任务结果:任务总数、工具详细度、任务结果详情、放弃试验次数
数据集包含多个配置版本,分别针对不同测试环境(如afm、catalyst、md等),每个配置包含训练集分割,样本数量从12到48不等。数据格式包含字符串、整型和浮点型等多种数据类型,适用于AI模型性能分析和比较研究。
创建时间:
2026-03-05



