five

Mathador-LM

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/IST-DASLab/Mathador-LM
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个动态的基准,旨在评估大型语言模型在数学推理能力方面的表现,其灵感来源于Mathador游戏,目标是通过使用基本算术运算来达到一个给定的目标数字。为了缓解对测试集泄露的担忧,该数据集是动态生成的,并且根据难度分为简单、中等和困难的问题集。该数据集的任务是数学推理和问题解决。

This dataset is a dynamic benchmark designed to assess the mathematical reasoning capabilities of large language models (LLMs), inspired by the Mathador game. Its core objective is to reach a specified target number using fundamental arithmetic operations. To mitigate concerns over test set leakage, this dataset is dynamically generated, and the problems are categorized into three difficulty tiers: easy, medium, and hard. The task of this dataset centers on mathematical reasoning and problem-solving.
提供机构:
IST-DASLab
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作