corral-reports

Hugging Face2026-03-04 更新2026-03-05 收录

下载链接：

https://huggingface.co/datasets/jablonkagroup/corral-reports

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，记录了Claude Sonnet 45模型在不同任务上的性能指标。数据集按代理类型（ReActAgent、ToolCallingAgent）、详细程度（brief简要、comprehensive全面、workflow工作流）和报告类型（overall_reports总体报告、task_reports任务报告）进行分类。每个配置包含模型信息、环境、任务级别、类别路径等元数据，以及平均得分、总体成功率、不同尝试次数的通过率等性能指标。此外还包含工具调用统计（总调用次数、成功/失败次数）、token使用量（完成token、提示token、总token）和基准测试持续时间等详细指标。数据集规模从数百字节到数KB不等，每个配置包含1-21个样本。

This dataset contains multiple configurations, recording the performance metrics of the Claude Sonnet 45 model across various tasks. It is categorized by agent type (ReActAgent, ToolCallingAgent), detail level (brief, comprehensive, workflow), and report type (overall_reports, task_reports). Each configuration includes metadata such as model information, environment, task level, category path, as well as performance metrics including average score, overall success rate, and pass rates for different numbers of attempts. Additionally, it covers tool call statistics (total call count, successful/failed call counts), token usage (completion tokens, prompt tokens, total tokens), and detailed metrics like benchmark test duration. The size of the dataset ranges from hundreds of bytes to several kilobytes, with each configuration containing 1 to 21 samples.

创建时间：

2026-03-02

原始信息汇总

数据集概述

基本信息

数据集名称: corral-reports
托管地址: https://huggingface.co/datasets/jablonkagroup/corral-reports
配置数量: 18个独立配置
数据格式: 结构化数据

数据集配置与结构

配置类型

数据集包含两种主要报告类型：

整体报告：汇总性性能指标，每个配置包含1个示例。
任务报告：针对具体任务的详细性能指标，每个配置包含3或21个示例。

核心特征字段

所有配置共享以下基础字段：

model: 模型名称
env: 环境标识
level: 任务级别
category: 任务类别
path: 路径信息
agent: 智能体类型
verbosity: 详细程度

性能评估指标

数据集包含以下评估指标：

average_score: 平均得分
overall_success_rate: 整体成功率
success_rate: 任务成功率
pass@1 至 pass@5: 不同尝试次数下的通过率
pass^1 至 pass^5: 另一种通过率指标

资源使用指标（仅整体报告包含）

total_tasks: 总任务数
tool_verbosity: 工具详细程度
total_tool_calls: 工具调用总数
successful_tool_calls: 成功工具调用数
failed_tool_calls: 失败工具调用数
total_token_usage: 令牌使用情况（包含completion_tokens、prompt_tokens、total_tokens）
total_tool_execution_duration: 工具执行总时长
total_benchmark_duration: 基准测试总时长

配置详情

基于子任务的配置（12个配置）

测试设置:

模型: Claude Sonnet 45
环境: Catalyst
级别: Level 1
任务类型: 子任务

智能体类型:

ReActAgent
ToolCallingAgent

详细程度变体:

brief（简要）
comprehensive（全面）
workflow（工作流）

数据规模:

整体报告: 每个配置1个示例，大小372-400字节
任务报告: 每个配置21个示例，大小6,754-7,048字节

基于任务的配置（6个配置）

测试设置:

模型: Claude Sonnet 45
环境: Catalyst
级别: Level 1
任务类型: 任务

智能体类型: ReActAgent

详细程度变体:

brief（简要）
comprehensive（全面）
workflow（工作流）

数据规模:

整体报告: 每个配置1个示例，大小372-388字节
任务报告: 每个配置3个示例，大小922-946字节

数据统计

总配置数: 18
总示例数: 整体报告18个 + 任务报告270个 = 288个示例
总下载大小: 约234,000字节
总数据集大小: 约78,000字节

数据集用途

该数据集记录了Claude Sonnet 45模型在Catalyst环境Level 1级别下，使用不同智能体（ReActAgent、ToolCallingAgent）和不同详细程度设置（brief、comprehensive、workflow）执行任务和子任务的性能评估报告。

搜集汇总

数据集介绍

构建方式

在智能体评估领域，corral-reports数据集通过系统化的基准测试框架构建而成。该框架以Claude Sonnet 45模型为核心，在Catalyst基准的Level 1环境中执行多样化任务，涵盖子任务与完整任务两种模式。数据采集过程整合了ReActAgent与ToolCallingAgent两种主流智能体架构，并依据简报、综合及工作流三种详细度级别生成评估报告。每个配置均记录了模型在特定环境下的交互轨迹与性能指标，形成了结构化的多维评估数据。

特点

该数据集的核心特征在于其精细化的评估维度和层次化的结构设计。数据条目不仅包含模型、环境、智能体类型等元信息，还深入量化了任务成功率、平均得分及多轮通过率（pass@k）。尤为突出的是，数据集囊括了工具调用统计、令牌消耗量以及任务执行时长等运行时指标，为分析智能体的效率与资源消耗提供了实证基础。这种多粒度、多视角的数据组织方式，使得研究者能够从宏观表现到微观操作进行全面剖析。

使用方法

研究人员可利用该数据集进行智能体能力的横向对比与纵向分析。通过加载不同的配置，可以分别考察ReActAgent与ToolCallingAgent在相同任务下的性能差异，或探究详细度设置对智能体决策质量的影响。数据集中的工具调用成功率和令牌使用数据，有助于优化智能体的工具使用策略与提示工程设计。此外，时间效率指标为评估智能体的实时响应能力提供了依据，支持开发更高效、更可靠的自主智能体系统。

背景与挑战

背景概述

在人工智能领域，智能体系统的评估与基准测试日益成为研究焦点，旨在量化模型在复杂任务中的实际表现。corral-reports数据集应运而生，专注于记录和分析大型语言模型在工具调用与任务执行场景下的性能数据。该数据集由相关研究团队构建，其核心研究问题在于如何系统性地评估智能体在结构化环境中的操作能力，包括任务成功率、工具调用效率以及资源消耗等关键指标。通过对Claude Sonnet等模型在Catalyst基准测试中的表现进行多维度记录，该数据集为智能体能力评估提供了标准化数据支持，推动了可复现实验与模型比较研究的发展。

当前挑战

该数据集致力于解决智能体系统评估中的核心挑战，即如何设计全面且可扩展的指标来量化模型在动态环境中的工具使用与任务完成能力。构建过程中面临多重挑战，包括设计能够捕捉智能体决策过程与执行效率的细粒度特征，例如工具调用成功率、任务通过率以及时间与令牌消耗。同时，确保数据收集的一致性与可复现性要求精确控制实验环境与任务流程，而处理不同智能体架构与任务类型的多样性则需平衡数据通用性与特定场景的深度分析。这些挑战共同塑造了数据集的结构与内容，旨在为智能体评估提供可靠基准。

常用场景

经典使用场景

在智能体与工具交互的评估领域，corral-reports数据集为研究者提供了系统化的性能分析框架。该数据集通过记录不同智能体在Catalyst环境中的任务执行报告，涵盖了整体成功率、工具调用效率及任务级评分等关键指标，成为评估ReActAgent与ToolCallingAgent等智能体架构的基准工具。其经典使用场景在于对比不同智能体策略在复杂任务中的表现差异，为优化智能体决策逻辑提供数据支撑。

解决学术问题

该数据集有效解决了智能体评估中缺乏标准化度量体系的学术难题。通过引入多维度评估指标如pass@k、工具调用成功率与令牌消耗量，研究者能够量化智能体的任务完成质量与资源效率。这为理解智能体在结构化环境中的泛化能力与鲁棒性提供了实证基础，推动了智能体评估方法论从定性描述向定量分析的范式转变，对构建可复现的智能体评估标准具有深远意义。

衍生相关工作

基于该数据集衍生的经典工作主要集中在智能体架构比较与评估指标创新两方面。部分研究利用其多智能体对比数据，提出了融合工具使用与推理过程的混合智能体框架；另有工作受其分层评估指标启发，开发了针对长时程任务的新型评估标准。这些衍生研究进一步拓展了智能体评估的维度，形成了从基准测试到方法论创新的完整研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集