andrewrreed/agents-benchmark-eval-results
收藏Hugging Face2023-12-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/andrewrreed/agents-benchmark-eval-results
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个字段,涉及代理名称、代理模型ID、问题、真实答案、预测答案、中间步骤、解析错误、迭代限制超出、代理错误、使用的工具、使用的不同工具数量、步骤数量、Prometheus评估模型ID、Prometheus评估分数、Prometheus评估反馈、OpenAI评估模型ID、OpenAI评估分数、OpenAI评估反馈、开始时间、结束时间和任务等。数据集主要用于评估和比较不同代理模型在回答问题时的表现和效果。
该数据集包含多个字段,涉及代理名称、代理模型ID、问题、真实答案、预测答案、中间步骤、解析错误、迭代限制超出、代理错误、使用的工具、使用的不同工具数量、步骤数量、Prometheus评估模型ID、Prometheus评估分数、Prometheus评估反馈、OpenAI评估模型ID、OpenAI评估分数、OpenAI评估反馈、开始时间、结束时间和任务等。数据集主要用于评估和比较不同代理模型在回答问题时的表现和效果。
提供机构:
andrewrreed
原始信息汇总
数据集详情
特征信息
- agent_name: 字符串类型
- agent_model_id: 字符串类型
- question: 字符串类型
- gt_answer: 字符串类型
- prediction: 字符串类型
- intermediate_steps: 字符串类型
- parsing_error: 布尔类型
- iteration_limit_exceeded: 布尔类型
- agent_error: 字符串类型
- tools_used: 字符串序列类型
- number_distinct_tools_used: 浮点数类型
- number_of_steps: 浮点数类型
- prometheus_evaluator_model_id: 字符串类型
- eval_score_prometheus: 整数类型
- eval_feedback_prometheus: 字符串类型
- openai_evaluator_model_id: 字符串类型
- eval_score_openai: 整数类型
- eval_feedback_openai: 字符串类型
- start_time: 时间戳类型
- end_time: 时间戳类型
- task: 字符串类型
- index_level_0: 整数类型
数据分割
- train:
- 字节数: 680642
- 样本数: 245
数据大小
- 下载大小: 262768 字节
- 数据集大小: 680642 字节
配置
- default:
- 数据文件路径:
data/train-*
- 数据文件路径:



