smoltrace-leaderboard

Hugging Face2025-10-25 更新2025-10-26 收录

下载链接：

https://huggingface.co/datasets/kshitijthakkar/smoltrace-leaderboard

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含模型评估数据的数据集，其中包括评估日期、模型类型、代理类型、所使用的数据集名称、测试结果数据集、测试跟踪数据集、测试度量数据集、测试数量、成功率、平均步骤数、平均测试持续时间、总测试持续时间、总标记数量、总二氧化碳排放量以及总成本等信息。数据集分为训练集，并且提供了数据集的字节大小和示例数量。

创建时间：

2025-10-22

原始信息汇总

Smoltrace Leaderboard 数据集概述

数据集基本信息

数据集名称: smoltrace-leaderboard
数据格式: 结构化表格数据
总数据量: 4,595字节
下载大小: 9,591字节
样本数量: 13条记录

数据结构特征

特征字段

评估信息: evaluation_date（评估日期）
模型信息: model（模型名称）、agent_type（代理类型）
数据集信息: dataset_used（使用数据集）、results_dataset（结果数据集）、traces_dataset（轨迹数据集）、metrics_dataset（指标数据集）
测试指标: num_tests（测试数量）、success_rate（成功率）
性能指标: avg_steps（平均步数）、avg_duration_ms（平均持续时间毫秒）、total_duration_ms（总持续时间毫秒）
资源消耗: total_tokens（总令牌数）、total_co2_g（总二氧化碳排放克数）、total_cost_usd（总成本美元）
备注信息: notes（备注）

数据类型

字符串类型: evaluation_date, model, agent_type, dataset_used, results_dataset, traces_dataset, metrics_dataset, notes
整型: num_tests, total_tokens
浮点型: success_rate, avg_steps, avg_duration_ms, total_duration_ms, total_co2_g, total_cost_usd

数据配置

配置名称: default
数据分割: train（训练集）
文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在智能体评估领域，smoltrace-leaderboard数据集通过系统化采集多维度测试数据构建而成。该数据集整合了评估日期、模型类型、智能体类别等关键元数据，并记录了测试数量、成功率、平均步数等核心性能指标。数据采集过程涵盖了不同数据集环境下的测试轨迹，同时纳入了计算时长、令牌消耗、碳排放和经济成本等资源度量指标，形成了完整的智能体性能评估体系。

特点

该数据集最显著的特点是具备全面的评估维度，不仅包含传统的成功率与效率指标，还创新性地引入了环境与经济成本核算。数据集结构设计精良，13个训练样本覆盖了多样化的模型与智能体类型，每个样本包含16个特征字段，从基础性能到可持续性影响均有细致记录。这种多角度的数据组织方式为深入分析智能体综合表现提供了丰富的信息基础。

使用方法

研究人员可通过加载数据集的标准格式直接访问各项评估指标，利用模型名称、智能体类型等字段进行筛选和对比分析。数据集支持对成功率和效率指标的趋势研究，同时碳排放与成本数据可用于可持续性评估。使用者可以基于不同测试环境下的表现数据，开展模型鲁棒性分析或资源优化研究，为智能体开发提供实证依据。

背景与挑战

背景概述

随着智能体系统在复杂环境决策中的广泛应用，smoltrace-leaderboard数据集应运而生，旨在系统评估自主智能体的交互性能与资源效率。该数据集通过记录模型执行轨迹、资源消耗指标及环境交互数据，为研究社区提供了标准化评估框架。其多维度指标设计不仅涵盖传统任务成功率，更创新性地引入碳排放与计算成本量化体系，推动了可持续人工智能研究范式的演进。

当前挑战

在智能体评估领域，核心挑战在于如何构建兼顾任务性能与资源效率的平衡指标体系，同时解决动态环境中行为轨迹的可复现性问题。数据集构建过程中需攻克多源异构数据的时序对齐难题，确保从原始交互日志到标准化指标的可靠转换。此外，跨平台智能体行为的归一化处理与碳排放因子的精确核算，亦对数据采集与清洗流程提出了极高要求。

常用场景

衍生相关工作

基于该数据集衍生的经典研究包括轻量化智能体架构设计与多模态评估框架开发。例如，部分工作结合其轨迹数据提出分层强化学习模型，另一类研究则扩展其指标体系至伦理对齐评估领域，催生了如低碳算法认证与自适应成本控制等创新方向，持续拓展了智能体研究的边界。

数据集最近研究