Satori_RL_data
收藏魔搭社区2025-08-24 更新2025-02-15 收录
下载链接:
https://modelscope.cn/datasets/okwinds/Satori_RL_data
下载链接
链接失效反馈官方服务:
资源简介:
# 本数据集论文解读,请看公众号文章 👇🏻
### <img src="https://www.modelscope.cn/datasets/okwinds/Human-Like-DPO-Dataset/resolve/master/wechat.png" width="30" height="30" align="absmiddle"> 觉察流 - [Satori 带来 COAT:解锁大语言模型自省及推理潜能,告别教师模型](https://mp.weixin.qq.com/s/hnqv6YE4Cca2_lrJm5vcxg)
> <span style="color:red;font-size:16px"> 声明:本数据集完全转载自 Huggingface 上的 [Satori-reasoning/Satori_RL_data](https://huggingface.co/datasets/Satori-reasoning/Satori_RL_data) <br/>更多模型信息,请关注下文👇🏻, 为原数据集仓库的中文版说明。</span>
<br/>
#### _仓库作者在此 👇🏻 扫一扫_
<img src="https://www.modelscope.cn/models/okwinds/GPT-2/resolve/master/qrcode_for_jcl_258.jpg" />
#### 下载方法
数据集文件元信息以及数据文件,请浏览“数据集文件”页面获取。
您可以通过如下GIT Clone命令,或者ModelScope SDK来下载数据集
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
# 模型介绍
**Satori-7B-Round2** 是一个基于开源模型(Qwen-2.5-Math-7B)和开源数据(OpenMathInstruct-2 和 NuminaMath)训练的 7B 大型语言模型(LLM)。**Satori-7B-Round2** 能够进行自回归搜索,即在没有外部指导的情况下进行自我反思和自我探索。这是通过我们提出的 Chain-of-Action-Thought(COAT)推理方法和两阶段后训练范式实现的。
## 我们的方法
我们将 LLM 推理表述为一个序贯决策问题,推理是一个逐步构建和优化答案的过程。具体来说,LLM(代理的策略)从输入上下文(初始状态)开始,生成一个推理步骤(动作),并更新上下文(下一个状态)。LLM 重复这一过程,直到得出最终答案,并接收一个评估最终答案是否与真实答案匹配的奖励。通过这种表述,我们可以使用强化学习(RL)训练 LLM 推理,目标是生成一系列推理步骤,以最大化预期奖励。
### Chain-of-Action-Thought 推理(COAT)
实现自回归搜索的关键挑战是使 LLM 能够在没有外部干预的情况下确定何时进行反思、继续或探索替代解决方案。为此,我们引入了几个特殊的元动作标记,以引导 LLM 的推理过程:
- **继续推理**(<\|continue\|>):鼓励 LLM 在当前推理轨迹的基础上生成下一个中间步骤。
- **反思**(<\|reflect\|>):提示模型暂停并验证之前推理步骤的正确性。
- **探索替代解决方案**(<\|explore\|>):信号模型识别推理中的关键缺陷并探索新的解决方案。
我们将这种表述称为 Chain-of-Action-Thought(COAT)推理。每个 COAT 推理步骤是一个以其中一个元动作标记开头的标记序列。
### 训练框架概述
1. 一个小规模的格式调整(FT)阶段,帮助基础 LLM 内化 COAT 推理格式。
2. 一个大规模的自我提升阶段,利用强化学习和“重启和探索”(RAE)技术。

### 通过模仿学习进行格式调整
这一阶段的目标是微调预训练的基础 LLM,使其模仿一些具有 COAT 推理格式的推理轨迹。为了合成包含尝试和错误的 COAT 轨迹,我们提出了一个多智能体数据合成框架,利用三个 LLM:
- **生成器**:给定一个输入问题,生成器使用经典的 CoT 技术为给定输入问题生成多个推理路径。
- **评论家**:评论家评估生成器生成的推理路径的正确性,提供反馈以优化推理并解决次优步骤。
- **奖励模型**:奖励模型为优化后的推理路径分配分数,并选择最有效的路径作为最终演示轨迹。
这三个模型协作构建高质量的演示轨迹。我们观察到,少量(10K)的演示轨迹足以让基础 LLM 遵循 COAT 推理格式。
### 通过强化学习进行自我提升
通过格式调整,LLM 已经采用了 COAT 推理风格,但在未见过的问题上泛化能力不足。RL 阶段旨在激励利用自我反思来提高推理的实际能力。我们从格式调整后的 LLM 开始,并进一步使用经典的 PPO 算法进行优化,同时采用两个关键策略:
- **重启和探索(RAE)**:受 Go-Explore 的启发,我们训练 LLM 策略不仅从问题陈述开始推理,还从过去轨迹中采样的中间步骤开始推理,无论是正确的还是错误的。我们还添加了探索奖励,以鼓励更深入的反思,进一步增加策略得出正确答案的机会。
- **迭代自我提升**:策略可能会收敛到局部次优解,无法进一步改进。受 Kickstarting 的启发,每轮 RL 训练后,我们将当前教师策略的知识通过监督微调蒸馏到学生模型(基础 LLM)中。从新微调的 LLM 开始,我们再进行一轮 RL 训练。
**Satori-7B-Round2** 是通过第二轮迭代自我提升获得的。
## 使用方法
```python
import os
from tqdm import tqdm
import torch
from vllm import LLM, SamplingParams
def generate(question_list, model_path):
llm = LLM(
model=model_path,
trust_remote_code=True,
tensor_parallel_size=1,
)
sampling_params = SamplingParams(
max_tokens=4096,
temperature=0.0,
n=1,
skip_special_tokens=True # 隐藏special tokens,如 "<\|continue\|>"、"<\|reflect\|>" 和 "<\|explore\|>"
)
outputs = llm.generate(question_list, sampling_params, use_tqdm=True)
completions = [[output.text for output in output_item.outputs] for output_item in outputs]
return completions
def prepare_prompt(question):
prompt = f"<|im_start|>user\n高效且清晰地解决以下数学问题。\n请逐步推理,并将最终答案放在 \\boxed{{}} 中。\n问题: {question}<|im_end|>\n<|im_start|>assistant\n"
return prompt
def run():
model_path = "Satori-reasoning/Satori-7B-Round2"
all_problems = [
"哪个数字更大?9.11 还是 9.9?",
]
completions = generate(
[prepare_prompt(problem_data) for problem_data in all_problems],
model_path
)
for completion in completions:
print(completion[0])
if __name__ == "__main__":
run()
```
## 基准测试性能
**Satori-7B-Round2** 在领域内推理基准(数学推理)和领域外基准(一般推理任务)上进行了评估。所有结果均报告为零样本 pass@1 准确率,使用贪婪采样。
### 评估任务
- **数学推理基准**:GSM8K、MATH500、AMC2023、AIME2024 和 OlympiadBench。除了 GSM8K,所有其他数据集都包含竞赛级别的问题。
- **一般领域推理基准**:
- 逻辑推理:FOLIO、BoardgameQA(BGQA)。
- 代码推理:CRUXEval。
- 常识推理:StrategyQA(STGQA)。
- 表格推理:TableBench。
- 特定领域推理:MMLUPro STEM 子集(STEM),包括物理、化学、计算机科学、工程、生物学和经济学。
### 数学推理基准
**Satori-7B-Round2** 实现了 SOTA 性能,并且优于使用相同基础模型(Qwen-2.5-Math-7B)的 Qwen-2.5-Math-7B-Instruct。
| 规模 | 模型 | GSM8K | MATH500 | OlymBench | AMC2023 | AIME2024 | 平均值 |
| --- | --- | --- | --- | --- | --- | --- | --- |
| **大型** | Llama-3.1-70B-Instruct | 94.1 | 68.0 | 29.4 | 42.5 | 13.3 | 49.5 |
| | OpenMath2-Llama3.1-70B | 94.1 | 71.8 | 30.1 | 45.0 | 13.3 | 50.9 |
| | QwQ-32B-Preview | 95.5 | 90.6 | 61.2 | 77.5 | 50.0 | 75.0 |
| **小型** | Llama-3.1-8b-Instruct | 84.4 | 51.9 | 15.1 | 22.5 | 3.3 | 35.4 |
| | OpenMath2-Llama3.1-8B | 90.5 | 67.8 | 28.9 | 37.5 | 6.7 | 46.3 |
| | NuminaMath-7B-CoT | 78.9 | 54.6 | 15.9 | 20.0 | 10.0 | 35.9 |
| | Qwen-2.5-7B-Instruct | 91.6 | 75.5 | 35.5 | 52.5 | 6.7 | 52.4 |
| | Qwen-2.5-Math-7B-Instruct | 95.2 | 83.6 | 41.6 | 62.5 | 16.7 | 59.9 |
| | **Satori-7B-Round2** | 93.9 | 83.6 | 48.5 | 72.5 | 23.3 | **64.4** |
### 一般领域推理基准
仅在数学数据集上训练的 **Satori-7B-Round2** 在多种领域外推理基准上表现出强大的迁移能力,并且大幅超越了 Qwen-2.5-Math-7B-Instruct。此外,尽管未在其他领域进行训练,**Satori-7B-Round2** 的性能与或超过了其他小型通用指令模型。
| 规模 | 模型 | FOLIO | BGQA | CRUXEval | StrategyQA | TableBench | STEM | 平均值 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- |
| **大型** | Llama-3.1-70B-Instruct | 65.0 | 58.3 | 59.6 | 88.8 | 34.2 | 61.7 | 61.3 |
| | OpenMath2-Llama3.1-70B | 68.5 | 68.7 | 35.1 | 95.6 | 46.8 | 15.1 | 55.0 |
| | QwQ-32B-Preview | 84.2 | 71.1 | 65.2 | 88.2 | 51.5 | 71.3 | 71.9 |
| **小型** | Llama-3.1-8b-Instruct | 63.5 | 50.3 | 38.5 | 92.2 | 32.4 | 43.4 | 53.4 |
| | OpenMath2-Llama3.1-8B | 57.1 | 49.0 | 11.1 | 84.4 | 34.2 | 10.9 | 41.1 |
| | NuminaMath-7B-CoT | 53.2 | 44.6 | 28.0 | 77.8 | 29.1 | 11.3 | 40.7 |
| | Qwen-2.5-7B-Instruct | 72.4 | 53.0 | 58.1 | 91.3 | 43.2 | 57.1 | **62.5** |
| | Qwen-2.5-Math-7B-Instruct | 68.9 | 51.3 | 28.0 | 85.3 | 36.2 | 45.2 | 52.5 |
| | **Satori-7B-Round2** | 72.9 | 58.5 | 41.1 | 90.4 | 44.6 | 57.4 | **60.8** |
## 资源
我们提供了我们的训练数据集:
- 包含 300K 个唯一问题的完整格式调整数据集。 [okwinds/Satori_FT_data](https://modelscope.cn/datasets/okwinds/Satori_FT_data)
- 包含 550K 个唯一问题的 RL 数据集。 [okwinds/Satori_RL_data](https://modelscope.cn/datasets/okwinds/Satori_RL_data)
## 引用
如果您觉得我们的模型和数据有帮助,请引用我们的论文:
```
@misc{shen2025satorireinforcementlearningchainofactionthought,
title={Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search},
author={Maohao Shen and Guangtao Zeng and Zhenting Qi and Zhang-Wei Hong and Zhenfang Chen and Wei Lu and Gregory Wornell and Subhro Das and David Cox and Chuang Gan},
year={2025},
eprint={2502.02508},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.02508},
}
```
# 如需查看本数据集的论文解读,请参阅公众号文章 👇🏻
### <img src="https://www.modelscope.cn/datasets/okwinds/Human-Like-DPO-Dataset/resolve/master/wechat.png" width="30" height="30" align="absmiddle"> 觉察流 - [Satori 推出 COAT:解锁大语言模型自省及推理潜能,告别教师模型](https://mp.weixin.qq.com/s/hnqv6YE4Cca2_lrJm5vcxg)
> <span style="color:red;font-size:16px"> 声明:本数据集完全转载自 Huggingface 平台上的 [Satori-reasoning/Satori_RL_data] 数据集仓库。<br/>更多模型相关信息,请参阅下文👇🏻,此处为原数据集仓库的中文版说明。</span>
<br/>
#### _仓库作者在此 👇🏻 扫码关注_
<img src="https://www.modelscope.cn/models/okwinds/GPT-2/resolve/master/qrcode_for_jcl_258.jpg" />
#### 下载方法
数据集文件元信息与数据文件,请前往「数据集文件」页面获取。您可通过以下GIT Clone命令或ModelScope SDK下载本数据集
:modelscope-code[]{type="sdk"}
:modelscope-code[]{type="git"}
# 模型介绍
**Satori-7B-Round2** 是一款基于开源模型(Qwen-2.5-Math-7B)与开源数据集(OpenMathInstruct-2 及 NuminaMath)训练得到的70亿参数大型语言模型(Large Language Model,LLM)。**Satori-7B-Round2** 支持自回归搜索,即无需外部指导即可完成自我反思与自主探索,该能力依托我们提出的**行动思维链(Chain-of-Action-Thought,COAT)**推理方法与两阶段后训练范式实现。
## 我们的方法
我们将大语言模型(LLM)的推理过程建模为序贯决策问题:推理本质是逐步构建并优化答案的动态过程。具体而言,LLM(即智能体的策略函数)从输入上下文(初始状态)出发,生成单步推理步骤(动作)并更新上下文(得到下一状态),重复该流程直至生成最终答案,随后接收用于评估最终答案与标准答案匹配度的奖励。基于该建模方式,我们可通过强化学习(Reinforcement Learning,RL)训练LLM的推理能力,目标是生成一系列推理步骤以最大化期望奖励。
### Chain-of-Action-Thought 推理(COAT)
实现自回归搜索的关键挑战是使LLM能够在无外部干预的情况下自主决定何时进行反思、继续推理或探索替代方案。为此,我们引入了三类特殊的元动作标记,以引导LLM的推理流程:
- **继续推理**(<|continue|>):引导LLM基于当前推理轨迹生成下一个中间步骤。
- **反思**(<|reflect|>):提示模型暂停并校验此前推理步骤的正确性。
- **探索替代方案**(<|explore|>):指示模型识别推理过程中的关键缺陷并探索全新解决方案。
我们将该建模方式称为行动思维链(Chain-of-Action-Thought,COAT)推理。每一步COAT推理均以上述三类元动作标记之一作为起始的Token序列。
### 训练框架概述
1. **小样本格式微调(Fine-Tuning,FT)阶段**:帮助基础LLM掌握并内化COAT推理格式。
2. **大规模自我提升阶段**:依托强化学习与「重启与探索(Restart and Explore,RAE)」技术实现。

### 基于模仿学习的格式微调
本阶段的目标是对预训练基础LLM进行微调,使其能够遵循并模仿符合COAT推理格式的推理轨迹。为合成包含试错过程的COAT轨迹,我们提出了一种多智能体数据合成框架,该框架依托三类LLM实现:
- **生成器**:针对给定输入问题,生成器借助经典思维链(Chain-of-Thought,CoT)技术生成多条推理路径。
- **评判器**:评判器对生成器产出的推理路径正确性进行评估,并提供反馈以优化推理流程、修正次优步骤。
- **奖励模型**:奖励模型为优化后的推理路径分配评分,并筛选出最优路径作为最终演示轨迹。
三类模型协同协作以构建高质量演示轨迹。我们观察到,仅需少量(10K)演示轨迹即可让基础LLM掌握COAT推理格式。
### 基于强化学习的自我提升
经过格式微调后,LLM已具备COAT推理风格,但在未知问题上的泛化能力仍有不足。RL阶段的目标是通过自我反思进一步提升模型的实际推理能力。我们以格式微调后的LLM为起点,采用经典PPO算法进行优化,并辅以两项关键策略:
- **重启与探索(RAE)**:受Go-Explore算法启发,我们训练LLM策略不仅可从问题描述出发启动推理,还可从过往轨迹中采样的中间步骤(无论正确与否)重启推理。此外,我们引入探索奖励以鼓励更深入的反思,进一步提升模型生成正确答案的概率。
- **迭代自我提升**:模型策略可能收敛至局部次优解,难以进一步优化。受Kickstarting方法启发,每一轮RL训练结束后,我们将当前教师策略的知识通过监督微调蒸馏至学生模型(即基础LLM)中。以新微调后的LLM为起点,我们可开展新一轮RL训练。
**Satori-7B-Round2** 正是通过第二轮迭代自我提升流程得到的。
## 使用方法
python
import os
from tqdm import tqdm
import torch
from vllm import LLM, SamplingParams
def generate(question_list, model_path):
llm = LLM(
model=model_path,
trust_remote_code=True,
tensor_parallel_size=1,
)
sampling_params = SamplingParams(
max_tokens=4096,
temperature=0.0,
n=1,
skip_special_tokens=True # 隐藏特殊Token,如 "<|continue|>"、"<|reflect|>" 及 "<|explore|>"
)
outputs = llm.generate(question_list, sampling_params, use_tqdm=True)
completions = [[output.text for output in output_item.outputs] for output_item in outputs]
return completions
def prepare_prompt(question):
prompt = f"<|im_start|>user
高效清晰地解决下述数学问题。
请逐步展开推理,并将最终答案置于 \boxed{{}} 中。
问题: {question}<|im_end|>
<|im_start|>assistant
"
return prompt
def run():
model_path = "Satori-reasoning/Satori-7B-Round2"
all_problems = [
"哪个数字更大?9.11 还是 9.9?",
]
completions = generate(
[prepare_prompt(problem_data) for problem_data in all_problems],
model_path
)
for completion in completions:
print(completion[0])
if __name__ == "__main__":
run()
## 基准测试性能
**Satori-7B-Round2** 已在领域内推理基准(数学推理任务)与领域外推理基准(通用推理任务)上完成评估。所有结果均以零样本(Zero-shot)pass@1准确率报告,采用贪婪采样策略。
### 评估任务
- **数学推理基准**:包含GSM8K、MATH500、AMC2023、AIME2024及OlympiadBench。除GSM8K外,其余数据集均涵盖竞赛级问题。
- **通用领域推理基准**:
- 逻辑推理:FOLIO、BoardgameQA(BGQA)。
- 代码推理:CRUXEval。
- 常识推理:StrategyQA(STGQA)。
- 表格推理:TableBench。
- 特定领域推理:MMLUPro STEM 子集(STEM),涵盖物理、化学、计算机科学、工程学、生物学及经济学。
### 数学推理基准表现
**Satori-7B-Round2** 取得了当前最优(State-of-the-Art,SOTA)性能,优于采用相同基础模型(Qwen-2.5-Math-7B)的Qwen-2.5-Math-7B-Instruct。
| 规模 | 模型 | GSM8K | MATH500 | OlymBench | AMC2023 | AIME2024 | 平均值 |
| --- | --- | --- | --- | --- | --- | --- | --- |
| **大型** | Llama-3.1-70B-Instruct | 94.1 | 68.0 | 29.4 | 42.5 | 13.3 | 49.5 |
| | OpenMath2-Llama3.1-70B | 94.1 | 71.8 | 30.1 | 45.0 | 13.3 | 50.9 |
| | QwQ-32B-Preview | 95.5 | 90.6 | 61.2 | 77.5 | 50.0 | 75.0 |
| **小型** | Llama-3.1-8b-Instruct | 84.4 | 51.9 | 15.1 | 22.5 | 3.3 | 35.4 |
| | OpenMath2-Llama3.1-8B | 90.5 | 67.8 | 28.9 | 37.5 | 6.7 | 46.3 |
| | NuminaMath-7B-CoT | 78.9 | 54.6 | 15.9 | 20.0 | 10.0 | 35.9 |
| | Qwen-2.5-7B-Instruct | 91.6 | 75.5 | 35.5 | 52.5 | 6.7 | 52.4 |
| | Qwen-2.5-Math-7B-Instruct | 95.2 | 83.6 | 41.6 | 62.5 | 16.7 | 59.9 |
| | **Satori-7B-Round2** | 93.9 | 83.6 | 48.5 | 72.5 | 23.3 | **64.4** |
### 通用领域推理基准表现
仅在数学数据集上完成训练的 **Satori-7B-Round2** 在多款领域外推理基准上展现出极强的迁移能力,且大幅领先Qwen-2.5-Math-7B-Instruct。此外,尽管未在其他领域进行针对性训练,**Satori-7B-Round2** 的性能已达到或超越其他小型通用指令模型。
| 规模 | 模型 | FOLIO | BGQA | CRUXEval | StrategyQA | TableBench | STEM | 平均值 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- |
| **大型** | Llama-3.1-70B-Instruct | 65.0 | 58.3 | 59.6 | 88.8 | 34.2 | 61.7 | 61.3 |
| | OpenMath2-Llama3.1-70B | 68.5 | 68.7 | 35.1 | 95.6 | 46.8 | 15.1 | 55.0 |
| | QwQ-32B-Preview | 84.2 | 71.1 | 65.2 | 88.2 | 51.5 | 71.3 | 71.9 |
| **小型** | Llama-3.1-8b-Instruct | 63.5 | 50.3 | 38.5 | 92.2 | 32.4 | 43.4 | 53.4 |
| | OpenMath2-Llama3.1-8B | 57.1 | 49.0 | 11.1 | 84.4 | 34.2 | 10.9 | 41.1 |
| | NuminaMath-7B-CoT | 53.2 | 44.6 | 28.0 | 77.8 | 29.1 | 11.3 | 40.7 |
| | Qwen-2.5-7B-Instruct | 72.4 | 53.0 | 58.1 | 91.3 | 43.2 | 57.1 | **62.5** |
| | Qwen-2.5-Math-7B-Instruct | 68.9 | 51.3 | 28.0 | 85.3 | 36.2 | 45.2 | 52.5 |
| | **Satori-7B-Round2** | 72.9 | 58.5 | 41.1 | 90.4 | 44.6 | 57.4 | **60.8** |
## 相关资源
我们公开了训练所用的数据集:
- 完整格式微调数据集:包含30万个唯一问题,链接:[okwinds/Satori_FT_data](https://modelscope.cn/datasets/okwinds/Satori_FT_data)
- 强化学习数据集:包含55万个唯一问题,链接:[okwinds/Satori_RL_data](https://modelscope.cn/datasets/okwinds/Satori_RL_data)
## 论文引用
若您认为本模型与数据集对您的研究有所帮助,请引用下述论文:
@misc{shen2025satorireinforcementlearningchainofactionthought,
title={Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search},
author={Maohao Shen and Guangtao Zeng and Zhenting Qi and Zhang-Wei Hong and Zhenfang Chen and Wei Lu and Gregory Wornell and Subhro Das and David Cox and Chuang Gan},
year={2025},
eprint={2502.02508},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.02508},
}
提供机构:
maas
创建时间:
2025-02-11



