OpenManus-RL

github2025-03-13 更新2025-03-11 收录

下载链接：

https://github.com/OpenManus/OpenManus-RL

下载链接

链接失效反馈

官方服务：

资源简介：

OpenManus-RL是一个开源项目，由Ulab-UIUC和MetaGPT共同领导。该项目是原始OpenManus项目的扩展版本，专注于RL调优的LLM代理。项目团队致力于以动态、直播的方式定期更新探索方向和结果，包括在GAIA、AgentBench、WebShop和OSWorld等代理基准上的严格测试和调优模型。

OpenManus-RL is an open-source project co-led by Ulab-UIUC and MetaGPT. It is an extended version of the original OpenManus project, focusing on RL-tuned LLM agents. The project team is committed to regularly updating its exploration directions and outcomes in a dynamic, live manner, including rigorous model testing and tuning on agent benchmarks such as GAIA, AgentBench, WebShop, and OSWorld.

创建时间：

2025-03-07

原始信息汇总

OpenManus-RL 数据集概述

数据集简介

OpenManus-RL 是一个开源项目，由 Ulab-UIUC 和 MetaGPT 共同领导。该项目是原始 OpenManus 创议的扩展版本，旨在探索新的强化学习（RL）调优方法，特别是建立在已有基础之上。

数据集特点

数据来源：结合了 AgentInstruct 和 Agent-FLAN 两个数据集的代理轨迹。
特性：包括 ReAct 框架、结构化训练、抗虚构样本、环境定位和跨六个领域的应用（操作系统、数据库、网络、知识图谱、家庭和电子商务）。

数据集概览

AgentInstruct：1,866 个轨迹，平均回合数为 5.24，支持多任务问答。
Agent-FLAN：3,000+ 个轨迹，回合数在 3-35 之间，具有错误恢复模式。
综合：4,866+ 个轨迹，回合数在 4-20 之间，具有增强的泛化能力。

支持任务

文本生成：ReAct 风格的指令遵循。
对话系统：工具增强的对话。

语言

英语

数据实例示例

json { "id": "os_0", "conversations": [ {"role": "user", "content": "Count files in /etc"}, {"role": "assistant", "content": "Think: Need reliable counting method Act: bash bash ls -1 /etc | wc -l "}, {"role": "user", "content": "OS Output: 220"}, {"role": "assistant", "content": "Think: Verified through execution Act: answer(220)"} ] }

致谢

感谢 ulab-uiuc 和 Openmanus 团队的支持和共享知识。

社区群组

加入我们的 Wecgat 社交群组，与其他开发者分享经验。

引用

请在找到 OpenManus 有帮助的情况下，引用以下论文：

bibtex @misc{OpenManus, author = {OpenManus-RL Team}, title = {OpenManus-RL: Open Platform for Generalist LLM Reasoning Agents with RL optimization}, year = {2025}, organization = {GitHub}, url = {https://github.com/OpenManus/OpenManus-RL}, }

搜集汇总

数据集介绍

构建方式

OpenManus-RL数据集是由Ulab-UIUC和MetaGPT联合领导的开放源代码项目，旨在探索基于强化学习（RL）的语言模型代理调优新范式。该数据集的构建基于原始OpenManus项目，通过集成先进的推理模型和多样化的滚出策略，收集并整合了大量的代理轨迹数据，以支持对LLM代理在推理和决策制定能力上的增强。

特点

OpenManus-RL数据集的特点在于其集成了来自AgentInstruct和Agent-FLAN的代理轨迹，并采用了ReAct框架进行推理与行动的整合。数据集涵盖了六个领域，包括操作系统、数据库、网络、知识图谱、家居和电子商务，且特别强调了结构化训练、抗虚构样本以及环境定位。这些特点使得数据集在多样性和泛化能力上表现出色。

使用方法

使用OpenManus-RL数据集时，用户可以通过创建conda环境并安装必要的依赖来开始。数据集支持监督微调（SFT）和基于梯度的强化策略优化（GRPO）两种训练方式。用户可以根据自己的需求调整模型名称、数据集名称、学习率等参数，并通过单GPU或多GPU训练来优化模型。

背景与挑战

背景概述

OpenManus-RL数据集是由Ulab-UIUC和MetaGPT共同领导的开源项目，旨在探索基于强化学习（RL）的语言模型代理调优新范式。该项目起源于OpenManus倡议，受到Deepseek-R1、QwQ-32B等成功RL调优案例的启发，致力于推动RL调优方法在语言模型代理中的应用。自2025年起，项目团队便开始定期更新研究方向和成果，并将进展、测试结果以及调优模型公开分享。该数据集的创建对相关领域产生了重要影响，为研究LLM代理推理和工具集成提供了新的视角。

当前挑战

OpenManus-RL数据集面临的挑战主要包括：1）在领域问题解决方面，如何通过RL调优提升LLM代理的推理和决策能力；2）在构建过程中，如何有效地收集和整合多样化的代理轨迹数据，以及如何设计有效的奖励策略来优化代理行为。具体挑战包括：多样化的推理模型探索、替代的Rollout策略、环境与基准测试的选择、后训练策略的应用、代理奖励模型的训练、轨迹测试时的缩放以及动作空间的认知与战略探索等。

常用场景

经典使用场景

OpenManus-RL数据集的经典使用场景在于强化学习（RL） tuning的大语言模型（LLM）代理的推理和决策制定能力。该数据集通过结合多样化的推理模型、滚出策略以及奖励机制，为研究者和开发者提供了一个综合的实验平台，以评估和优化LLM代理在各种复杂任务中的表现。

解决学术问题

OpenManus-RL解决了学术研究中如何有效提升LLM代理推理能力和决策质量的问题。它通过提供大量的代理轨迹数据和多种推理格式，使得研究者能够探索不同的推理和行动策略，进而提高LLM代理在实际应用中的泛化能力和准确性。

衍生相关工作

OpenManus-RL数据集衍生了多项相关工作，包括但不限于Offline Training of Language Model Agents、FIREACT、AgentTuning等。这些工作进一步探索了LLM代理的推理和行动学习能力，并推动了相关领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集