andrewrreed/agents-benchmark-eval-results

Name: andrewrreed/agents-benchmark-eval-results
Creator: andrewrreed
Published: 2023-12-19 01:04:07
License: 暂无描述

Hugging Face2023-12-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/andrewrreed/agents-benchmark-eval-results

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字段，涉及代理名称、代理模型ID、问题、真实答案、预测答案、中间步骤、解析错误、迭代限制超出、代理错误、使用的工具、使用的不同工具数量、步骤数量、Prometheus评估模型ID、Prometheus评估分数、Prometheus评估反馈、OpenAI评估模型ID、OpenAI评估分数、OpenAI评估反馈、开始时间、结束时间和任务等。数据集主要用于评估和比较不同代理模型在回答问题时的表现和效果。

提供机构：

andrewrreed

原始信息汇总

数据集详情

特征信息

agent_name: 字符串类型
agent_model_id: 字符串类型
question: 字符串类型
gt_answer: 字符串类型
prediction: 字符串类型
intermediate_steps: 字符串类型
parsing_error: 布尔类型
iteration_limit_exceeded: 布尔类型
agent_error: 字符串类型
tools_used: 字符串序列类型
number_distinct_tools_used: 浮点数类型
number_of_steps: 浮点数类型
prometheus_evaluator_model_id: 字符串类型
eval_score_prometheus: 整数类型
eval_feedback_prometheus: 字符串类型
openai_evaluator_model_id: 字符串类型
eval_score_openai: 整数类型
eval_feedback_openai: 字符串类型
start_time: 时间戳类型
end_time: 时间戳类型
task: 字符串类型
index_level_0: 整数类型

数据分割

train:
- 字节数: 680642
- 样本数: 245

数据大小

下载大小: 262768 字节
数据集大小: 680642 字节

配置

default:
- 数据文件路径: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集