GTA
收藏Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/GTA
下载链接
链接失效反馈官方服务:
资源简介:
GTA旨在评估基于大型语言模型的智能体在真实场景中的工具使用能力。它包含229个由人工编写的查询,这些查询具有简单的现实目标,但隐含了工具的使用,需要LLM推理合适的工具并规划解决方案步骤。每个查询都附带真实的图像文件,例如空间场景、网页截图、表格、代码片段以及印刷或手写材料,用作查询上下文,以紧密贴合真实世界场景。数据集中的每个样本包含与查询相关的工具信息(名称、描述、输入/输出格式)、相关图像路径列表、ReAct风格的对话序列(用户查询、可执行工具链和最终答案)以及标准答案(包含白名单和黑名单短语,或多个不同的回复)。该数据集支持对LLM的工具使用能力进行评估,并提供详细的使用案例。同时,它也提供了一套排行榜,用于比较不同LLM在逐步模式和端到端模式下的性能,其中逐步模式评估细粒度的工具使用能力,端到端模式反映实际任务执行性能。该数据集采用Apache 2.0授权许可。
创建时间:
2024-07-19



