five

AQA-Bench

收藏
arXiv2024-02-15 更新2024-06-21 收录
下载链接:
https://github.com/UCSCVLAA/AQA-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
AQA-Bench是一个专为评估大型语言模型(LLMs)在算法上下文中的顺序推理能力而设计的新基准。该数据集由加州大学圣克鲁兹分校和爱丁堡大学的研究团队创建,包含12个不同的LLMs评估。数据集的核心特点在于其交互式评估协议,例如在深度优先搜索(DFS)中,每个节点的连接边是否可用取决于模型对该节点的遍历,从而要求LLM有效地记忆已访问节点并策略化后续移动。AQA-Bench构建了三种不同的算法环境:二分搜索、深度优先搜索和广度优先搜索,以评估LLMs的顺序推理能力。该数据集旨在解决LLMs在执行复杂、顺序推理任务时的能力评估问题,并希望推动未来在理解和增强LLMs顺序推理能力方面的工作。
提供机构:
加州大学圣克鲁兹分校 2 爱丁堡大学
创建时间:
2024-02-15
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作