Simulated Operand Dataset
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/ChenEmmaL/imitation_abacus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了用于训练强化学习代理解决算术问题的样本操作数,特别是涉及多数字的加法和减法,且这些操作数的范围超出了训练区间。此外,该代理在不同操作数区间的表现进行了评估,重点在于其分布外(OOD)的泛化能力。每个区间的样本量为10万,任务为解决算术问题。
提供机构:
Authors of the paper



