five

GridPuzzle

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/Mihir3009/GridPuzzle
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个评估集,包含274个基于网格的谜题,这些谜题具有不同的复杂度,旨在评估大型语言模型(LLMs)的推理能力。该数据集涵盖了多种网格大小(3x4、3x5、4x4、4x5和4x6),并设置了不同的难度级别,旨在深入了解大型语言模型在解决网格谜题时可能出现的推理错误。规模上,该数据集共有274个基于网格的谜题,其任务是对解决网格谜题时的推理链进行评估。
提供机构:
Mihir3009
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作