five

andrewrreed/agents-benchmark-eval-results

收藏
Hugging Face2023-12-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/andrewrreed/agents-benchmark-eval-results
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个字段,涉及代理名称、代理模型ID、问题、真实答案、预测答案、中间步骤、解析错误、迭代限制超出、代理错误、使用的工具、使用的不同工具数量、步骤数量、Prometheus评估模型ID、Prometheus评估分数、Prometheus评估反馈、OpenAI评估模型ID、OpenAI评估分数、OpenAI评估反馈、开始时间、结束时间和任务等。数据集主要用于评估和比较不同代理模型在回答问题时的表现和效果。

该数据集包含多个字段,涉及代理名称、代理模型ID、问题、真实答案、预测答案、中间步骤、解析错误、迭代限制超出、代理错误、使用的工具、使用的不同工具数量、步骤数量、Prometheus评估模型ID、Prometheus评估分数、Prometheus评估反馈、OpenAI评估模型ID、OpenAI评估分数、OpenAI评估反馈、开始时间、结束时间和任务等。数据集主要用于评估和比较不同代理模型在回答问题时的表现和效果。
提供机构:
andrewrreed
原始信息汇总

数据集详情

特征信息

  • agent_name: 字符串类型
  • agent_model_id: 字符串类型
  • question: 字符串类型
  • gt_answer: 字符串类型
  • prediction: 字符串类型
  • intermediate_steps: 字符串类型
  • parsing_error: 布尔类型
  • iteration_limit_exceeded: 布尔类型
  • agent_error: 字符串类型
  • tools_used: 字符串序列类型
  • number_distinct_tools_used: 浮点数类型
  • number_of_steps: 浮点数类型
  • prometheus_evaluator_model_id: 字符串类型
  • eval_score_prometheus: 整数类型
  • eval_feedback_prometheus: 字符串类型
  • openai_evaluator_model_id: 字符串类型
  • eval_score_openai: 整数类型
  • eval_feedback_openai: 字符串类型
  • start_time: 时间戳类型
  • end_time: 时间戳类型
  • task: 字符串类型
  • index_level_0: 整数类型

数据分割

  • train:
    • 字节数: 680642
    • 样本数: 245

数据大小

  • 下载大小: 262768 字节
  • 数据集大小: 680642 字节

配置

  • default:
    • 数据文件路径: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作