AQA-Bench

Name: AQA-Bench
Creator: 加州大学圣克鲁兹分校 2 爱丁堡大学
Published: 2024-02-15 02:59:33
License: 暂无描述

arXiv2024-02-15 更新2024-06-21 收录

下载链接：

https://github.com/UCSCVLAA/AQA-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

AQA-Bench是一个专为评估大型语言模型（LLMs）在算法上下文中的顺序推理能力而设计的新基准。该数据集由加州大学圣克鲁兹分校和爱丁堡大学的研究团队创建，包含12个不同的LLMs评估。数据集的核心特点在于其交互式评估协议，例如在深度优先搜索（DFS）中，每个节点的连接边是否可用取决于模型对该节点的遍历，从而要求LLM有效地记忆已访问节点并策略化后续移动。AQA-Bench构建了三种不同的算法环境：二分搜索、深度优先搜索和广度优先搜索，以评估LLMs的顺序推理能力。该数据集旨在解决LLMs在执行复杂、顺序推理任务时的能力评估问题，并希望推动未来在理解和增强LLMs顺序推理能力方面的工作。

提供机构：

加州大学圣克鲁兹分校 2 爱丁堡大学

创建时间：

2024-02-15

5,000+

优质数据集

54 个

任务类型

进入经典数据集