five

chavoshia1/24-game

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/chavoshia1/24-game
下载链接
链接失效反馈
官方服务:
资源简介:
一个全面的经典数学24点游戏数据集(也称为4数字游戏/24点游戏/Game of 24)。该数学推理挑战数据集收集自4nums.com,包含超过1,300个独特的24点游戏谜题,难度指标源自2012年以来超过640万次人类解题尝试。每个谜题中,玩家必须使用恰好四个数字和基本算术运算(+、-、×、/)构建一个等于24的表达式。例如,给定数字“4 9 10 13”,一个有效的解是“(10 - 4)×(13 - 9)= 24”。数据集包含1,362个独特的24点数字谜题组合,包括使用4个数字制作24的完整数学谜题集、来自超过640万次谜题尝试的性能数据、基于真实玩家解题时间的难度评级、每个可解谜题的多种解变体,以及扑克牌(1-13)所有可能数字组合的全面覆盖。

A comprehensive dataset for the classic math twenty four game (also known as the 4 numbers game / 24s game / Game of 24). This dataset of mathematical reasoning challenges was collected from 4nums.com, featuring over 1,300 unique puzzles of the Game of 24, with difficulty metrics derived from over 6.4 million human solution attempts since 2012. In each puzzle, players must use exactly four numbers and basic arithmetic operations (+, -, ×, /) to construct an expression that evaluates to 24. For example, given the numbers 4 9 10 13, one valid solution is (10 - 4) × (13 - 9) = 24. The dataset contains 1,362 unique combinations of 24 numbers puzzles, including a complete set of math puzzles using 4 numbers to make 24, performance data from over 6.4 million puzzle attempts, difficulty ratings based on real player solve times, multiple solution variations for each solvable puzzle, and comprehensive coverage of all possible number combinations from playing cards (1-13).
提供机构:
chavoshia1
搜集汇总
数据集介绍
main_image_url
构建方式
24-game数据集源自著名的数学二十四点游戏,其构建基于从4nums.com平台收集的真实人类求解数据。该数据集涵盖了超过1,300个独特的数字组合,每个组合由四个取自1至13(对应于扑克牌A至K)的整数构成。研究人员收集了自2012年以来超过640万次人类解题尝试,从中提取了每个谜题的难度指标,如调整中位时间、求解成功率及平均求解时间等统计量。数据集的每个条目包含四个数字、所有可能的数学表达式解、是否可解的状态标识以及由大量玩家行为导出的性能参数,确保了数据在难度评估上的全面性与客观性。
特点
该数据集的核心特色在于其结合了经典的逻辑谜题与大规模真实人类行为数据。每个谜题不仅标注了所有可能的解法(如通过加减乘除运算使四个数字得到24),还提供了基于超过640万次尝试的求解时间分布(包括调整中位时间、均值与标准差)和成功率,为数学推理任务的难度层次划分提供了量化依据。此外,数据集涵盖了从易到难的全范围谜题,包括无解组合,使其成为评估模型在基本算术推理和搜索策略能力的理想基准。其结构化的多字段设计便于直接用于多选问答、文本生成及强化学习等任务。
使用方法
该数据集适用于多种自然语言处理与机器学习任务。对于多选问答任务,可输入四个数字作为问题,要求模型从提供的解法列表中选择正确答案。在文本生成任务中,模型需根据给定的数字组合输出合法的数学表达式使其结果为24。对于强化学习的研究,可将谜题设计为环境,将尝试表达式作为动作,以得到24为目标奖励。研究人员可直接加载HuggingFace数据集库中的'24-game',利用其预设的训练集进行模型训练与评估,性能指标如求解时间和成功率可作为比较不同推理方法的客观标准。
背景与挑战
背景概述
24-game数据集是一个专注于经典数学24点游戏的综合性数据集,由研究人员从4nums.com平台收集并整理而成,创建于2023年,旨在为数学推理与符号计算研究提供标准化评测基准。该数据集包含了1362个独特的24点谜题,每个谜题由四个1至13之间的数字组成,玩家须通过加、减、乘、除等基本算术运算,使表达式结果为24。数据集涵盖了所有可能的扑克牌数字组合,并基于自2012年以来超过640万次人类求解尝试,提供了每道题目的难度指标,如调整后中位数时间(AMT)、求解率及求解时间分布等统计信息。该数据集在数学推理、强化学习、程序合成和符号回归等领域具有重要影响力,为评估模型在有限资源下进行多步符号操作的能力提供了丰富且可控的测试场景。
当前挑战
24-game数据集所解决的核心领域挑战在于数学推理任务的符号组合与状态空间爆炸问题。给定四个数字及四种基本运算符,可能的表达式组合数量庞大,且需要满足所有中间结果均为有理数的约束,这要求模型具备高效搜索和分步推理能力。传统神经网络在处理此类需精确符号运算的任务时,常暴露出泛化能力不足、对数字排列敏感等问题。在数据集构建过程中,挑战体现在对超过6.4万次人类尝试数据的清洗与噪声控制上,玩家求解时间受个体差异、网络延迟和外部干扰影响显著,需要设计鲁棒的统计指标(如调整后中位数时间)来剥离异常值并合理量化题目真实难度。此外,确保所有谜题解决方案的数学正确性与完整性,避免遗漏或错误表达式,也是一项颇为繁琐的验证工作。
常用场景
经典使用场景
24点游戏数据集为数学推理与符号计算研究提供了理想测试平台。该数据集包含1362个独特谜题,涵盖从简单到无解的各种难度级别,并配有超过640万次人类求解行为数据。研究者常利用该数据集评估大型语言模型在数值操作、表达式生成和约束求解等方面的能力,通过对比模型与人类在解题正确率、求解时间和策略多样性上的差异,深入探究人工智能的符号推理潜力。
实际应用
在实际应用中,24点游戏数据集被广泛用于开发智能教育工具和数学辅导系统。基于该数据集的求解算法可嵌入在线学习平台,为学生提供即时解题策略解析和个性化难度推荐。此外,游戏公司利用难度指标设计自适应谜题关卡,增强玩家体验;而搜索算法研究者则将其作为测试用例,优化表达式树生成和剪枝策略,提升自动求解效率与逻辑验证的可靠性。
衍生相关工作
围绕该数据集衍生了多项经典工作,如通过Transformer模型直接生成表达式序列的求解器、基于蒙特卡洛树搜索的24点游戏智能体,以及结合人类反馈微调语言模型的符号推理框架。部分研究还利用该数据集的难度标签训练评分模型,自动评估解题策略的优劣。这些工作不仅深化了算术推理领域的算法创新,也促进了数学谜题数据在强化学习环境和迁移学习任务中的广泛应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作