five

Satori_RL_data

收藏
魔搭社区2025-08-24 更新2025-02-15 收录
下载链接:
https://modelscope.cn/datasets/okwinds/Satori_RL_data
下载链接
链接失效反馈
官方服务:
资源简介:
# 本数据集论文解读,请看公众号文章 👇🏻 ### <img src="https://www.modelscope.cn/datasets/okwinds/Human-Like-DPO-Dataset/resolve/master/wechat.png" width="30" height="30" align="absmiddle"> 觉察流 - [Satori 带来 COAT:解锁大语言模型自省及推理潜能,告别教师模型](https://mp.weixin.qq.com/s/hnqv6YE4Cca2_lrJm5vcxg) > <span style="color:red;font-size:16px"> 声明:本数据集完全转载自 Huggingface 上的 [Satori-reasoning/Satori_RL_data](https://huggingface.co/datasets/Satori-reasoning/Satori_RL_data) <br/>更多模型信息,请关注下文👇🏻, 为原数据集仓库的中文版说明。</span> <br/> #### _仓库作者在此 👇🏻 扫一扫_ <img src="https://www.modelscope.cn/models/okwinds/GPT-2/resolve/master/qrcode_for_jcl_258.jpg" /> #### 下载方法 数据集文件元信息以及数据文件,请浏览“数据集文件”页面获取。 您可以通过如下GIT Clone命令,或者ModelScope SDK来下载数据集 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} # 模型介绍 **Satori-7B-Round2** 是一个基于开源模型(Qwen-2.5-Math-7B)和开源数据(OpenMathInstruct-2 和 NuminaMath)训练的 7B 大型语言模型(LLM)。**Satori-7B-Round2** 能够进行自回归搜索,即在没有外部指导的情况下进行自我反思和自我探索。这是通过我们提出的 Chain-of-Action-Thought(COAT)推理方法和两阶段后训练范式实现的。 ## 我们的方法 我们将 LLM 推理表述为一个序贯决策问题,推理是一个逐步构建和优化答案的过程。具体来说,LLM(代理的策略)从输入上下文(初始状态)开始,生成一个推理步骤(动作),并更新上下文(下一个状态)。LLM 重复这一过程,直到得出最终答案,并接收一个评估最终答案是否与真实答案匹配的奖励。通过这种表述,我们可以使用强化学习(RL)训练 LLM 推理,目标是生成一系列推理步骤,以最大化预期奖励。 ### Chain-of-Action-Thought 推理(COAT) 实现自回归搜索的关键挑战是使 LLM 能够在没有外部干预的情况下确定何时进行反思、继续或探索替代解决方案。为此,我们引入了几个特殊的元动作标记,以引导 LLM 的推理过程: - **继续推理**(<\|continue\|>):鼓励 LLM 在当前推理轨迹的基础上生成下一个中间步骤。 - **反思**(<\|reflect\|>):提示模型暂停并验证之前推理步骤的正确性。 - **探索替代解决方案**(<\|explore\|>):信号模型识别推理中的关键缺陷并探索新的解决方案。 我们将这种表述称为 Chain-of-Action-Thought(COAT)推理。每个 COAT 推理步骤是一个以其中一个元动作标记开头的标记序列。 ### 训练框架概述 1. 一个小规模的格式调整(FT)阶段,帮助基础 LLM 内化 COAT 推理格式。 2. 一个大规模的自我提升阶段,利用强化学习和“重启和探索”(RAE)技术。 ![schematic.png](https://www.modelscope.cn/models/okwinds/Satori-7B-Round2/resolve/master/img/schematic.png) ### 通过模仿学习进行格式调整 这一阶段的目标是微调预训练的基础 LLM,使其模仿一些具有 COAT 推理格式的推理轨迹。为了合成包含尝试和错误的 COAT 轨迹,我们提出了一个多智能体数据合成框架,利用三个 LLM: - **生成器**:给定一个输入问题,生成器使用经典的 CoT 技术为给定输入问题生成多个推理路径。 - **评论家**:评论家评估生成器生成的推理路径的正确性,提供反馈以优化推理并解决次优步骤。 - **奖励模型**:奖励模型为优化后的推理路径分配分数,并选择最有效的路径作为最终演示轨迹。 这三个模型协作构建高质量的演示轨迹。我们观察到,少量(10K)的演示轨迹足以让基础 LLM 遵循 COAT 推理格式。 ### 通过强化学习进行自我提升 通过格式调整,LLM 已经采用了 COAT 推理风格,但在未见过的问题上泛化能力不足。RL 阶段旨在激励利用自我反思来提高推理的实际能力。我们从格式调整后的 LLM 开始,并进一步使用经典的 PPO 算法进行优化,同时采用两个关键策略: - **重启和探索(RAE)**:受 Go-Explore 的启发,我们训练 LLM 策略不仅从问题陈述开始推理,还从过去轨迹中采样的中间步骤开始推理,无论是正确的还是错误的。我们还添加了探索奖励,以鼓励更深入的反思,进一步增加策略得出正确答案的机会。 - **迭代自我提升**:策略可能会收敛到局部次优解,无法进一步改进。受 Kickstarting 的启发,每轮 RL 训练后,我们将当前教师策略的知识通过监督微调蒸馏到学生模型(基础 LLM)中。从新微调的 LLM 开始,我们再进行一轮 RL 训练。 **Satori-7B-Round2** 是通过第二轮迭代自我提升获得的。 ## 使用方法 ```python import os from tqdm import tqdm import torch from vllm import LLM, SamplingParams def generate(question_list, model_path): llm = LLM( model=model_path, trust_remote_code=True, tensor_parallel_size=1, ) sampling_params = SamplingParams( max_tokens=4096, temperature=0.0, n=1, skip_special_tokens=True # 隐藏special tokens,如 "<\|continue\|>"、"<\|reflect\|>" 和 "<\|explore\|>" ) outputs = llm.generate(question_list, sampling_params, use_tqdm=True) completions = [[output.text for output in output_item.outputs] for output_item in outputs] return completions def prepare_prompt(question): prompt = f"<|im_start|>user\n高效且清晰地解决以下数学问题。\n请逐步推理,并将最终答案放在 \\boxed{{}} 中。\n问题: {question}<|im_end|>\n<|im_start|>assistant\n" return prompt def run(): model_path = "Satori-reasoning/Satori-7B-Round2" all_problems = [ "哪个数字更大?9.11 还是 9.9?", ] completions = generate( [prepare_prompt(problem_data) for problem_data in all_problems], model_path ) for completion in completions: print(completion[0]) if __name__ == "__main__": run() ``` ## 基准测试性能 **Satori-7B-Round2** 在领域内推理基准(数学推理)和领域外基准(一般推理任务)上进行了评估。所有结果均报告为零样本 pass@1 准确率,使用贪婪采样。 ### 评估任务 - **数学推理基准**:GSM8K、MATH500、AMC2023、AIME2024 和 OlympiadBench。除了 GSM8K,所有其他数据集都包含竞赛级别的问题。 - **一般领域推理基准**: - 逻辑推理:FOLIO、BoardgameQA(BGQA)。 - 代码推理:CRUXEval。 - 常识推理:StrategyQA(STGQA)。 - 表格推理:TableBench。 - 特定领域推理:MMLUPro STEM 子集(STEM),包括物理、化学、计算机科学、工程、生物学和经济学。 ### 数学推理基准 **Satori-7B-Round2** 实现了 SOTA 性能,并且优于使用相同基础模型(Qwen-2.5-Math-7B)的 Qwen-2.5-Math-7B-Instruct。 | 规模 | 模型 | GSM8K | MATH500 | OlymBench | AMC2023 | AIME2024 | 平均值 | | --- | --- | --- | --- | --- | --- | --- | --- | | **大型** | Llama-3.1-70B-Instruct | 94.1 | 68.0 | 29.4 | 42.5 | 13.3 | 49.5 | | | OpenMath2-Llama3.1-70B | 94.1 | 71.8 | 30.1 | 45.0 | 13.3 | 50.9 | | | QwQ-32B-Preview | 95.5 | 90.6 | 61.2 | 77.5 | 50.0 | 75.0 | | **小型** | Llama-3.1-8b-Instruct | 84.4 | 51.9 | 15.1 | 22.5 | 3.3 | 35.4 | | | OpenMath2-Llama3.1-8B | 90.5 | 67.8 | 28.9 | 37.5 | 6.7 | 46.3 | | | NuminaMath-7B-CoT | 78.9 | 54.6 | 15.9 | 20.0 | 10.0 | 35.9 | | | Qwen-2.5-7B-Instruct | 91.6 | 75.5 | 35.5 | 52.5 | 6.7 | 52.4 | | | Qwen-2.5-Math-7B-Instruct | 95.2 | 83.6 | 41.6 | 62.5 | 16.7 | 59.9 | | | **Satori-7B-Round2** | 93.9 | 83.6 | 48.5 | 72.5 | 23.3 | **64.4** | ### 一般领域推理基准 仅在数学数据集上训练的 **Satori-7B-Round2** 在多种领域外推理基准上表现出强大的迁移能力,并且大幅超越了 Qwen-2.5-Math-7B-Instruct。此外,尽管未在其他领域进行训练,**Satori-7B-Round2** 的性能与或超过了其他小型通用指令模型。 | 规模 | 模型 | FOLIO | BGQA | CRUXEval | StrategyQA | TableBench | STEM | 平均值 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | **大型** | Llama-3.1-70B-Instruct | 65.0 | 58.3 | 59.6 | 88.8 | 34.2 | 61.7 | 61.3 | | | OpenMath2-Llama3.1-70B | 68.5 | 68.7 | 35.1 | 95.6 | 46.8 | 15.1 | 55.0 | | | QwQ-32B-Preview | 84.2 | 71.1 | 65.2 | 88.2 | 51.5 | 71.3 | 71.9 | | **小型** | Llama-3.1-8b-Instruct | 63.5 | 50.3 | 38.5 | 92.2 | 32.4 | 43.4 | 53.4 | | | OpenMath2-Llama3.1-8B | 57.1 | 49.0 | 11.1 | 84.4 | 34.2 | 10.9 | 41.1 | | | NuminaMath-7B-CoT | 53.2 | 44.6 | 28.0 | 77.8 | 29.1 | 11.3 | 40.7 | | | Qwen-2.5-7B-Instruct | 72.4 | 53.0 | 58.1 | 91.3 | 43.2 | 57.1 | **62.5** | | | Qwen-2.5-Math-7B-Instruct | 68.9 | 51.3 | 28.0 | 85.3 | 36.2 | 45.2 | 52.5 | | | **Satori-7B-Round2** | 72.9 | 58.5 | 41.1 | 90.4 | 44.6 | 57.4 | **60.8** | ## 资源 我们提供了我们的训练数据集: - 包含 300K 个唯一问题的完整格式调整数据集。 [okwinds/Satori_FT_data](https://modelscope.cn/datasets/okwinds/Satori_FT_data) - 包含 550K 个唯一问题的 RL 数据集。 [okwinds/Satori_RL_data](https://modelscope.cn/datasets/okwinds/Satori_RL_data) ## 引用 如果您觉得我们的模型和数据有帮助,请引用我们的论文: ``` @misc{shen2025satorireinforcementlearningchainofactionthought, title={Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search}, author={Maohao Shen and Guangtao Zeng and Zhenting Qi and Zhang-Wei Hong and Zhenfang Chen and Wei Lu and Gregory Wornell and Subhro Das and David Cox and Chuang Gan}, year={2025}, eprint={2502.02508}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.02508}, } ```

# 如需查看本数据集的论文解读,请参阅公众号文章 👇🏻 ### <img src="https://www.modelscope.cn/datasets/okwinds/Human-Like-DPO-Dataset/resolve/master/wechat.png" width="30" height="30" align="absmiddle"> 觉察流 - [Satori 推出 COAT:解锁大语言模型自省及推理潜能,告别教师模型](https://mp.weixin.qq.com/s/hnqv6YE4Cca2_lrJm5vcxg) > <span style="color:red;font-size:16px"> 声明:本数据集完全转载自 Huggingface 平台上的 [Satori-reasoning/Satori_RL_data] 数据集仓库。<br/>更多模型相关信息,请参阅下文👇🏻,此处为原数据集仓库的中文版说明。</span> <br/> #### _仓库作者在此 👇🏻 扫码关注_ <img src="https://www.modelscope.cn/models/okwinds/GPT-2/resolve/master/qrcode_for_jcl_258.jpg" /> #### 下载方法 数据集文件元信息与数据文件,请前往「数据集文件」页面获取。您可通过以下GIT Clone命令或ModelScope SDK下载本数据集 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"} # 模型介绍 **Satori-7B-Round2** 是一款基于开源模型(Qwen-2.5-Math-7B)与开源数据集(OpenMathInstruct-2 及 NuminaMath)训练得到的70亿参数大型语言模型(Large Language Model,LLM)。**Satori-7B-Round2** 支持自回归搜索,即无需外部指导即可完成自我反思与自主探索,该能力依托我们提出的**行动思维链(Chain-of-Action-Thought,COAT)**推理方法与两阶段后训练范式实现。 ## 我们的方法 我们将大语言模型(LLM)的推理过程建模为序贯决策问题:推理本质是逐步构建并优化答案的动态过程。具体而言,LLM(即智能体的策略函数)从输入上下文(初始状态)出发,生成单步推理步骤(动作)并更新上下文(得到下一状态),重复该流程直至生成最终答案,随后接收用于评估最终答案与标准答案匹配度的奖励。基于该建模方式,我们可通过强化学习(Reinforcement Learning,RL)训练LLM的推理能力,目标是生成一系列推理步骤以最大化期望奖励。 ### Chain-of-Action-Thought 推理(COAT) 实现自回归搜索的关键挑战是使LLM能够在无外部干预的情况下自主决定何时进行反思、继续推理或探索替代方案。为此,我们引入了三类特殊的元动作标记,以引导LLM的推理流程: - **继续推理**(<|continue|>):引导LLM基于当前推理轨迹生成下一个中间步骤。 - **反思**(<|reflect|>):提示模型暂停并校验此前推理步骤的正确性。 - **探索替代方案**(<|explore|>):指示模型识别推理过程中的关键缺陷并探索全新解决方案。 我们将该建模方式称为行动思维链(Chain-of-Action-Thought,COAT)推理。每一步COAT推理均以上述三类元动作标记之一作为起始的Token序列。 ### 训练框架概述 1. **小样本格式微调(Fine-Tuning,FT)阶段**:帮助基础LLM掌握并内化COAT推理格式。 2. **大规模自我提升阶段**:依托强化学习与「重启与探索(Restart and Explore,RAE)」技术实现。 ![schematic.png](https://www.modelscope.cn/models/okwinds/Satori-7B-Round2/resolve/master/img/schematic.png) ### 基于模仿学习的格式微调 本阶段的目标是对预训练基础LLM进行微调,使其能够遵循并模仿符合COAT推理格式的推理轨迹。为合成包含试错过程的COAT轨迹,我们提出了一种多智能体数据合成框架,该框架依托三类LLM实现: - **生成器**:针对给定输入问题,生成器借助经典思维链(Chain-of-Thought,CoT)技术生成多条推理路径。 - **评判器**:评判器对生成器产出的推理路径正确性进行评估,并提供反馈以优化推理流程、修正次优步骤。 - **奖励模型**:奖励模型为优化后的推理路径分配评分,并筛选出最优路径作为最终演示轨迹。 三类模型协同协作以构建高质量演示轨迹。我们观察到,仅需少量(10K)演示轨迹即可让基础LLM掌握COAT推理格式。 ### 基于强化学习的自我提升 经过格式微调后,LLM已具备COAT推理风格,但在未知问题上的泛化能力仍有不足。RL阶段的目标是通过自我反思进一步提升模型的实际推理能力。我们以格式微调后的LLM为起点,采用经典PPO算法进行优化,并辅以两项关键策略: - **重启与探索(RAE)**:受Go-Explore算法启发,我们训练LLM策略不仅可从问题描述出发启动推理,还可从过往轨迹中采样的中间步骤(无论正确与否)重启推理。此外,我们引入探索奖励以鼓励更深入的反思,进一步提升模型生成正确答案的概率。 - **迭代自我提升**:模型策略可能收敛至局部次优解,难以进一步优化。受Kickstarting方法启发,每一轮RL训练结束后,我们将当前教师策略的知识通过监督微调蒸馏至学生模型(即基础LLM)中。以新微调后的LLM为起点,我们可开展新一轮RL训练。 **Satori-7B-Round2** 正是通过第二轮迭代自我提升流程得到的。 ## 使用方法 python import os from tqdm import tqdm import torch from vllm import LLM, SamplingParams def generate(question_list, model_path): llm = LLM( model=model_path, trust_remote_code=True, tensor_parallel_size=1, ) sampling_params = SamplingParams( max_tokens=4096, temperature=0.0, n=1, skip_special_tokens=True # 隐藏特殊Token,如 "<|continue|>"、"<|reflect|>" 及 "<|explore|>" ) outputs = llm.generate(question_list, sampling_params, use_tqdm=True) completions = [[output.text for output in output_item.outputs] for output_item in outputs] return completions def prepare_prompt(question): prompt = f"<|im_start|>user 高效清晰地解决下述数学问题。 请逐步展开推理,并将最终答案置于 \boxed{{}} 中。 问题: {question}<|im_end|> <|im_start|>assistant " return prompt def run(): model_path = "Satori-reasoning/Satori-7B-Round2" all_problems = [ "哪个数字更大?9.11 还是 9.9?", ] completions = generate( [prepare_prompt(problem_data) for problem_data in all_problems], model_path ) for completion in completions: print(completion[0]) if __name__ == "__main__": run() ## 基准测试性能 **Satori-7B-Round2** 已在领域内推理基准(数学推理任务)与领域外推理基准(通用推理任务)上完成评估。所有结果均以零样本(Zero-shot)pass@1准确率报告,采用贪婪采样策略。 ### 评估任务 - **数学推理基准**:包含GSM8K、MATH500、AMC2023、AIME2024及OlympiadBench。除GSM8K外,其余数据集均涵盖竞赛级问题。 - **通用领域推理基准**: - 逻辑推理:FOLIO、BoardgameQA(BGQA)。 - 代码推理:CRUXEval。 - 常识推理:StrategyQA(STGQA)。 - 表格推理:TableBench。 - 特定领域推理:MMLUPro STEM 子集(STEM),涵盖物理、化学、计算机科学、工程学、生物学及经济学。 ### 数学推理基准表现 **Satori-7B-Round2** 取得了当前最优(State-of-the-Art,SOTA)性能,优于采用相同基础模型(Qwen-2.5-Math-7B)的Qwen-2.5-Math-7B-Instruct。 | 规模 | 模型 | GSM8K | MATH500 | OlymBench | AMC2023 | AIME2024 | 平均值 | | --- | --- | --- | --- | --- | --- | --- | --- | | **大型** | Llama-3.1-70B-Instruct | 94.1 | 68.0 | 29.4 | 42.5 | 13.3 | 49.5 | | | OpenMath2-Llama3.1-70B | 94.1 | 71.8 | 30.1 | 45.0 | 13.3 | 50.9 | | | QwQ-32B-Preview | 95.5 | 90.6 | 61.2 | 77.5 | 50.0 | 75.0 | | **小型** | Llama-3.1-8b-Instruct | 84.4 | 51.9 | 15.1 | 22.5 | 3.3 | 35.4 | | | OpenMath2-Llama3.1-8B | 90.5 | 67.8 | 28.9 | 37.5 | 6.7 | 46.3 | | | NuminaMath-7B-CoT | 78.9 | 54.6 | 15.9 | 20.0 | 10.0 | 35.9 | | | Qwen-2.5-7B-Instruct | 91.6 | 75.5 | 35.5 | 52.5 | 6.7 | 52.4 | | | Qwen-2.5-Math-7B-Instruct | 95.2 | 83.6 | 41.6 | 62.5 | 16.7 | 59.9 | | | **Satori-7B-Round2** | 93.9 | 83.6 | 48.5 | 72.5 | 23.3 | **64.4** | ### 通用领域推理基准表现 仅在数学数据集上完成训练的 **Satori-7B-Round2** 在多款领域外推理基准上展现出极强的迁移能力,且大幅领先Qwen-2.5-Math-7B-Instruct。此外,尽管未在其他领域进行针对性训练,**Satori-7B-Round2** 的性能已达到或超越其他小型通用指令模型。 | 规模 | 模型 | FOLIO | BGQA | CRUXEval | StrategyQA | TableBench | STEM | 平均值 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | **大型** | Llama-3.1-70B-Instruct | 65.0 | 58.3 | 59.6 | 88.8 | 34.2 | 61.7 | 61.3 | | | OpenMath2-Llama3.1-70B | 68.5 | 68.7 | 35.1 | 95.6 | 46.8 | 15.1 | 55.0 | | | QwQ-32B-Preview | 84.2 | 71.1 | 65.2 | 88.2 | 51.5 | 71.3 | 71.9 | | **小型** | Llama-3.1-8b-Instruct | 63.5 | 50.3 | 38.5 | 92.2 | 32.4 | 43.4 | 53.4 | | | OpenMath2-Llama3.1-8B | 57.1 | 49.0 | 11.1 | 84.4 | 34.2 | 10.9 | 41.1 | | | NuminaMath-7B-CoT | 53.2 | 44.6 | 28.0 | 77.8 | 29.1 | 11.3 | 40.7 | | | Qwen-2.5-7B-Instruct | 72.4 | 53.0 | 58.1 | 91.3 | 43.2 | 57.1 | **62.5** | | | Qwen-2.5-Math-7B-Instruct | 68.9 | 51.3 | 28.0 | 85.3 | 36.2 | 45.2 | 52.5 | | | **Satori-7B-Round2** | 72.9 | 58.5 | 41.1 | 90.4 | 44.6 | 57.4 | **60.8** | ## 相关资源 我们公开了训练所用的数据集: - 完整格式微调数据集:包含30万个唯一问题,链接:[okwinds/Satori_FT_data](https://modelscope.cn/datasets/okwinds/Satori_FT_data) - 强化学习数据集:包含55万个唯一问题,链接:[okwinds/Satori_RL_data](https://modelscope.cn/datasets/okwinds/Satori_RL_data) ## 论文引用 若您认为本模型与数据集对您的研究有所帮助,请引用下述论文: @misc{shen2025satorireinforcementlearningchainofactionthought, title={Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search}, author={Maohao Shen and Guangtao Zeng and Zhenting Qi and Zhang-Wei Hong and Zhenfang Chen and Wei Lu and Gregory Wornell and Subhro Das and David Cox and Chuang Gan}, year={2025}, eprint={2502.02508}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.02508}, }
提供机构:
maas
创建时间:
2025-02-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作