five

GTA

收藏
OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/GTA?tab=summary
下载链接
链接失效反馈
官方服务:
资源简介:
GTA旨在评估基于大型语言模型的智能体在真实场景中的工具使用能力。它包含229个由人工编写的查询,这些查询具有简单的现实目标,但隐含了工具的使用,需要LLM推理合适的工具并规划解决方案步骤。每个查询都附带真实的图像文件,例如空间场景、网页截图、表格、代码片段以及印刷或手写材料,用作查询上下文,以紧密贴合真实世界场景。数据集中的每个样本包含与查询相关的工具信息(名称、描述、输入/输出格式)、相关图像路径列表、ReAct风格的对话序列(用户查询、可执行工具链和最终答案)以及标准答案(包含白名单和黑名单短语,或多个不同的回复)。该数据集支持对LLM的工具使用能力进行评估,并提供详细的使用案例。同时,它也提供了一套排行榜,用于比较不同LLM在逐步模式和端到端模式下的性能,其中逐步模式评估细粒度的工具使用能力,端到端模式反映实际任务执行性能。该数据集采用Apache 2.0授权许可。
提供机构:
AIWizards
创建时间:
2024-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作