five

OpenManus-RL

收藏
github2025-03-13 更新2025-03-11 收录
下载链接:
https://github.com/OpenManus/OpenManus-RL
下载链接
链接失效反馈
官方服务:
资源简介:
OpenManus-RL是一个开源项目,由Ulab-UIUC和MetaGPT共同领导。该项目是原始OpenManus项目的扩展版本,专注于RL调优的LLM代理。项目团队致力于以动态、直播的方式定期更新探索方向和结果,包括在GAIA、AgentBench、WebShop和OSWorld等代理基准上的严格测试和调优模型。

OpenManus-RL is an open-source project co-led by Ulab-UIUC and MetaGPT. It is an extended version of the original OpenManus project, focusing on RL-tuned LLM agents. The project team is committed to regularly updating its exploration directions and outcomes in a dynamic, live manner, including rigorous model testing and tuning on agent benchmarks such as GAIA, AgentBench, WebShop, and OSWorld.
创建时间:
2025-03-07
原始信息汇总

OpenManus-RL 数据集概述

数据集简介

OpenManus-RL 是一个开源项目,由 Ulab-UIUC 和 MetaGPT 共同领导。该项目是原始 OpenManus 创议的扩展版本,旨在探索新的强化学习(RL)调优方法,特别是建立在已有基础之上。

数据集特点

  • 数据来源:结合了 AgentInstruct 和 Agent-FLAN 两个数据集的代理轨迹。
  • 特性:包括 ReAct 框架、结构化训练、抗虚构样本、环境定位和跨六个领域的应用(操作系统、数据库、网络、知识图谱、家庭和电子商务)。

数据集概览

  • AgentInstruct:1,866 个轨迹,平均回合数为 5.24,支持多任务问答。
  • Agent-FLAN:3,000+ 个轨迹,回合数在 3-35 之间,具有错误恢复模式。
  • 综合:4,866+ 个轨迹,回合数在 4-20 之间,具有增强的泛化能力。

支持任务

  • 文本生成:ReAct 风格的指令遵循。
  • 对话系统:工具增强的对话。

语言

  • 英语

数据实例示例

json { "id": "os_0", "conversations": [ {"role": "user", "content": "Count files in /etc"}, {"role": "assistant", "content": "Think: Need reliable counting method Act: bash bash ls -1 /etc | wc -l "}, {"role": "user", "content": "OS Output: 220"}, {"role": "assistant", "content": "Think: Verified through execution Act: answer(220)"} ] }

相关工作

  • 代理调优、工具使用、代理调优指令数据集、RL 调优、基准测试等方面的相关论文和项目。

致谢

感谢 ulab-uiuc 和 Openmanus 团队的支持和共享知识。

社区群组

加入我们的 Wecgat 社交群组,与其他开发者分享经验。

引用

请在找到 OpenManus 有帮助的情况下,引用以下论文:

bibtex @misc{OpenManus, author = {OpenManus-RL Team}, title = {OpenManus-RL: Open Platform for Generalist LLM Reasoning Agents with RL optimization}, year = {2025}, organization = {GitHub}, url = {https://github.com/OpenManus/OpenManus-RL}, }

搜集汇总
数据集介绍
main_image_url
构建方式
OpenManus-RL数据集是由Ulab-UIUC和MetaGPT联合领导的开放源代码项目,旨在探索基于强化学习(RL)的语言模型代理调优新范式。该数据集的构建基于原始OpenManus项目,通过集成先进的推理模型和多样化的滚出策略,收集并整合了大量的代理轨迹数据,以支持对LLM代理在推理和决策制定能力上的增强。
特点
OpenManus-RL数据集的特点在于其集成了来自AgentInstruct和Agent-FLAN的代理轨迹,并采用了ReAct框架进行推理与行动的整合。数据集涵盖了六个领域,包括操作系统、数据库、网络、知识图谱、家居和电子商务,且特别强调了结构化训练、抗虚构样本以及环境定位。这些特点使得数据集在多样性和泛化能力上表现出色。
使用方法
使用OpenManus-RL数据集时,用户可以通过创建conda环境并安装必要的依赖来开始。数据集支持监督微调(SFT)和基于梯度的强化策略优化(GRPO)两种训练方式。用户可以根据自己的需求调整模型名称、数据集名称、学习率等参数,并通过单GPU或多GPU训练来优化模型。
背景与挑战
背景概述
OpenManus-RL数据集是由Ulab-UIUC和MetaGPT共同领导的开源项目,旨在探索基于强化学习(RL)的语言模型代理调优新范式。该项目起源于OpenManus倡议,受到Deepseek-R1、QwQ-32B等成功RL调优案例的启发,致力于推动RL调优方法在语言模型代理中的应用。自2025年起,项目团队便开始定期更新研究方向和成果,并将进展、测试结果以及调优模型公开分享。该数据集的创建对相关领域产生了重要影响,为研究LLM代理推理和工具集成提供了新的视角。
当前挑战
OpenManus-RL数据集面临的挑战主要包括:1)在领域问题解决方面,如何通过RL调优提升LLM代理的推理和决策能力;2)在构建过程中,如何有效地收集和整合多样化的代理轨迹数据,以及如何设计有效的奖励策略来优化代理行为。具体挑战包括:多样化的推理模型探索、替代的Rollout策略、环境与基准测试的选择、后训练策略的应用、代理奖励模型的训练、轨迹测试时的缩放以及动作空间的认知与战略探索等。
常用场景
经典使用场景
OpenManus-RL数据集的经典使用场景在于强化学习(RL) tuning的大语言模型(LLM)代理的推理和决策制定能力。该数据集通过结合多样化的推理模型、滚出策略以及奖励机制,为研究者和开发者提供了一个综合的实验平台,以评估和优化LLM代理在各种复杂任务中的表现。
解决学术问题
OpenManus-RL解决了学术研究中如何有效提升LLM代理推理能力和决策质量的问题。它通过提供大量的代理轨迹数据和多种推理格式,使得研究者能够探索不同的推理和行动策略,进而提高LLM代理在实际应用中的泛化能力和准确性。
衍生相关工作
OpenManus-RL数据集衍生了多项相关工作,包括但不限于Offline Training of Language Model Agents、FIREACT、AgentTuning等。这些工作进一步探索了LLM代理的推理和行动学习能力,并推动了相关领域的研究进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作