AQA-Bench
收藏arXiv2024-02-15 更新2024-06-21 收录
下载链接:
https://github.com/UCSCVLAA/AQA-Bench
下载链接
链接失效反馈官方服务:
资源简介:
AQA-Bench是一个专为评估大型语言模型(LLMs)在算法上下文中的顺序推理能力而设计的新基准。该数据集由加州大学圣克鲁兹分校和爱丁堡大学的研究团队创建,包含12个不同的LLMs评估。数据集的核心特点在于其交互式评估协议,例如在深度优先搜索(DFS)中,每个节点的连接边是否可用取决于模型对该节点的遍历,从而要求LLM有效地记忆已访问节点并策略化后续移动。AQA-Bench构建了三种不同的算法环境:二分搜索、深度优先搜索和广度优先搜索,以评估LLMs的顺序推理能力。该数据集旨在解决LLMs在执行复杂、顺序推理任务时的能力评估问题,并希望推动未来在理解和增强LLMs顺序推理能力方面的工作。
提供机构:
加州大学圣克鲁兹分校 2 爱丁堡大学
创建时间:
2024-02-15



