five

24点游戏

收藏
github2025-03-03 更新2025-03-07 收录
下载链接:
https://github.com/sylvain-wei/24-Game-Reasoning
下载链接
链接失效反馈
官方服务:
资源简介:
24点游戏是一个经典的数学游戏,要求使用4个数字和基本运算(加法、减法、乘法、除法)来得到结果24。本项目通过不同的训练方法(Zero-RL、SFT、SFT+RL)来增强大型语言模型(LLMs)在24点游戏中的推理和自我验证能力。

The 24-point game is a classic mathematical puzzle that requires using four given numbers and four basic arithmetic operations (addition, subtraction, multiplication, and division) to obtain the result of 24. This work adopts multiple training strategies including Zero-RL, SFT, and SFT+RL to enhance the reasoning and self-validation capabilities of Large Language Models (LLMs) in the 24-point game.
创建时间:
2025-02-26
原始信息汇总

24-Game-Reasoning 数据集概述

数据集简介

  • 目标:通过不同训练方法(Zero-RL、SFT、SFT+RL)增强大语言模型在24点游戏中的推理和自验证能力
  • 游戏类型:经典数学游戏,使用4个数字和基本运算(加、减、乘、除)得到结果24

游戏规则

  • 必须使用四张牌的数字各一次
  • 允许运算符:加法(+)、减法(-)、乘法(×)、除法(÷)
  • 允许使用括号()改变运算顺序
  • 禁止使用其他运算符或数字
  • 除法结果可以是小数或无限循环数

数据集结构

24-Game-Reasoning/ ├── data/
│ ├── 24game_grpo/ # RL数据集 │ └── 24game_sft/ # SFT数据集 ├── docs/
├── images/
│ ├── examples/
│ └── results/
├── results/
├── scripts/
│ ├── data_processing/
│ ├── evaluation/
│ └── training/
├── templates/
├── utils/
├── verl/

使用方法

1. 数据准备

bash python scripts/data_processing/data_preparation.py

2. 模型训练

2.1 Zero-RL训练

bash cd verl bash scripts/run_qwen25_math_grpo.sh

2.2 SFT训练

bash cd verl bash scripts/run_qwen25_math_sft.sh 4 None

2.3 SFT+RL训练

bash cd verl bash scripts/run_qwen25_math_grpo_sft_rl.sh

3. 模型评估

bash python scripts/evaluation/eval.py --base_model_path /path/to/model --val_data_path data/24game_sft/val.parquet

实验结果

方法比较

  1. Zero-RL:直接使用RL训练基础模型
  2. SFT:使用人工标注数据进行监督微调
  3. SFT+RL:先进行SFT训练,再进行RL训练

主要发现

  1. RL训练能有效增强模型在24点游戏中的推理和自验证能力
  2. 思维链长度与准确率呈正相关,但过长会导致计算资源浪费
  3. SFT+RL组合方法效果最佳,Zero-RL也是有效训练策略

引用格式

bibtex @misc{24GameReasoning2024, author = {Wei, Shaohang}, title = {24-Game-Reasoning: Enhancing LLMs Reasoning and Self-Verification Capabilities}, year = {2025}, publisher = {GitHub}, journal = {GitHub Repository}, howpublished = {url{https://github.com/sylvain-wei/24-Game-Reasoning}} }

许可协议

  • MIT License
搜集汇总
数据集介绍
main_image_url
构建方式
24点游戏数据集的构建,是以四张扑克牌上的数字为输入,通过加、减、乘、除四种基本算数运算得到结果24的所有可能组合。该数据集通过数学游戏24点,旨在提高大型语言模型在推理和自我验证方面的能力。数据集包含了多种训练方法(Zero-RL、SFT、SFT+RL)产生的数据,以适应不同的训练需求。
特点
本数据集的特点在于,其不仅包含了基础的游戏规则数据,还涵盖了通过不同训练方法得到的高阶推理数据。这些数据有助于模型学习如何在限定条件下进行复杂的数学推理,并自我验证推理的正确性。此外,数据集的结构清晰,易于模型的训练和评估。
使用方法
使用该数据集时,首先需要进行数据准备,通过提供的脚本生成24点游戏的数据。接着,可以使用三种不同的训练方法对模型进行训练:Zero-RL直接使用强化学习训练,SFT使用监督微调,SFT+RL则是先进行监督微调再进行强化学习。训练完成后,通过评估脚本来评估模型的性能。
背景与挑战
背景概述
24点游戏数据集源于经典的数学游戏,旨在通过使用4个数字和基本运算(加法、减法、乘法、除法)来得到结果24。该项目创建于近期,由Wei Shaohang主持,其核心研究问题是通过不同的训练方法(Zero-RL、SFT、SFT+RL)提升大型语言模型(LLM)在24点游戏中的推理和自我验证能力。该数据集的建立对于提升语言模型在数学推理和逻辑判断方面的性能具有重要意义,为相关领域的研究提供了新的视角和工具。
当前挑战
该数据集面临的挑战主要包括:1) 在解决数学推理问题上的挑战,如何通过训练使模型能够有效处理24点游戏中多样化的数字组合和运算顺序;2) 构建过程中的挑战,如如何平衡训练样本的多样性与模型泛化能力,以及如何优化模型训练的效率和准确性。实验结果显示,SFT+RL方法在准确性和推理能力上表现最佳,但同时也需关注该方法在实际应用中的资源消耗和计算效率问题。
常用场景
经典使用场景
在数学游戏领域,24点游戏数据集提供了一个标准的测试平台,用以评估大型语言模型在算术推理和自我验证方面的能力。该数据集的经典使用场景主要涉及通过训练模型,使其能够从四张牌的数字和基本运算符中推理出结果24。这一过程不仅考验模型对数学公式的理解,也检验其在逻辑推理和问题解决方面的能力。
解决学术问题
该数据集解决了学术研究中对于大型语言模型数学推理能力的评估问题,提供了量化指标和比较基准。通过不同的训练方法,如零样本强化学习(Zero-RL)、监督微调(SFT)以及结合两者(SFT+RL),研究人员可以深入理解模型在解决特定数学问题时的性能差异及其背后的机制。
衍生相关工作
基于24点游戏数据集,衍生出了一系列相关研究工作,包括对模型推理过程的可视化分析、不同训练策略的比较研究以及模型性能的提升方法。这些研究进一步推动了大型语言模型在数学推理领域的应用,为后续的学术探索和技术创新奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作