five

Ego-R1-Data

收藏
Hugging Face2025-06-10 更新2025-06-11 收录
下载链接:
https://huggingface.co/datasets/Ego-R1/Ego-R1-Data
下载链接
链接失效反馈
官方服务:
资源简介:
Ego-R1 Data是一个综合性的数据集,旨在帮助训练用于工具增强推理和强化学习的大型语言模型。该数据集包含两部分:Ego-CoTT-25K,包含25,000个用于监督微调(SFT)的链式工具思维示例;Ego-QA-4.4K,包含4,400个用于强化学习(RL)训练的问题-答案对。数据集经过后处理,以适应大型语言模型训练的需要,并提供了不同的数据格式以供不同的训练场景使用。

Ego-R1 Data is a comprehensive dataset designed to support the training of large language models for tool-augmented reasoning and reinforcement learning. This dataset consists of two components: Ego-CoTT-25K, which contains 25,000 chain-of-tool-thought examples for supervised fine-tuning (SFT); and Ego-QA-4.4K, which includes 4,400 question-answer pairs for reinforcement learning (RL) training. The dataset has been post-processed to meet the training requirements of large language models, and provides diverse data formats for different training scenarios.
创建时间:
2025-06-02
原始信息汇总

Ego-R1 数据集概述

数据集简介

Ego-R1 Data 是一个综合性数据集,旨在促进大型语言模型在工具增强推理和强化学习方面的训练。该数据集用于 Ego-R1 Codebase

数据集组成

  • Ego-CoTT-25K: 25,000 条工具链思维示例,用于监督微调 (SFT)
  • Ego-QA-4.4K: 4,400 条问答对,用于强化学习 (RL) 训练

数据集结构

data/ ├── Ego-CoTT-25K/ # 25K 工具链思维数据 (SFT) │ └── train-cott.json # 主训练数据 (415MB) │ ├── Ego-QA-4.4K/ # 4.4K QA 对 (RL 训练) │ ├── gemini-1.5K/ # 1.5K Gemini 生成的 QA 对 │ │ ├── A1.json # 代理 A1 数据 │ │ ├── A2.json # 代理 A2 数据 │ │ ├── A3.json # 代理 A3 数据 │ │ ├── A4.json # 代理 A4 数据 │ │ ├── A5.json # 代理 A5 数据 │ │ └── A6.json # 代理 A6 数据 │ │ │ └── manual-2.9K/ # 2.9K 手动创建的 QA 对 │ ├── A1_JAKE.json # Jake 的手动标注 │ ├── A2_ALICE.json # Alice 的手动标注 │ ├── A3_TASHA.json # Tasha 的手动标注 │ ├── A4_LUCIA.json # Lucia 的手动标注 │ ├── A5_KATRINA.json # Katrina 的手动标注 │ └── A6_SHURE.json # Shure 的手动标注 │ ├── Ego-CoTT-raw/ # 原始数据和附加格式 │ ├── A1/, A2/, A3/, A4/, A5/, A6/ # 各代理目录 │ ├── train_sft.json # SFT 训练数据 (415MB) │ ├── train_rl.parquet # RL 训练数据 (19MB) │ ├── test.json # JSON 格式测试数据 │ └── test.parquet # Parquet 格式测试数据

使用方式

监督微调 (SFT)

数据已处理为符合 LLaMA-Factory 格式的多轮对话格式。使用方法: bash mkdir LLaMA-Factory/data scp data/Ego-CoTT-25K/train-cott.json LLaMA-Factory/data/

强化学习 (RL)

数据已处理为符合 verl 格式的基于规则的奖励格式。使用方法: bash mkdir Ego-R1-Agent/data scp data/Ego-CoTT-raw/*.parquet Ego-R1-Agent/data/

数据格式

两个数据集均经过后处理,采用优化后的结构化格式,适用于具有工具增强推理能力的大型语言模型训练。后处理代码可在 GitHub Repo 找到。

数据处理

Ego-CoTT-raw/ 中的原始数据包含未经处理的文件和用于 RL 训练的替代格式 (Parquet)。

搜集汇总
数据集介绍
main_image_url
构建方式
Ego-R1数据集采用多源异构数据构建策略,通过混合生成式与人工标注双通道形成完整语料库。其核心组件Ego-CoTT-25K通过工具链思维(Chain-of-Tool-Thought)框架生成25,000条监督微调样本,而Ego-QA-4.4K则整合Gemini模型生成的1,500组问答对与六位标注专家手工创作的2,900组数据,采用多代理分布式标注体系确保数据多样性。原始数据经过标准化清洗后,转换为符合LLaMA-Factory和verl框架的强化学习专用格式。
特点
该数据集最显著的特征在于其工具增强推理的专业性设计,Ego-CoTT模块采用多步工具调用链结构模拟真实决策过程,问答对数据则包含六种不同风格的人工标注版本。技术层面提供JSON与Parquet双格式支持,并预先处理为符合主流训练框架的多轮对话格式。数据分布上保持生成数据与人工数据的黄金比例,既保证规模效益又确保数据质量,特别适合需要复杂工具交互的智能体训练场景。
使用方法
使用该数据集时需区分不同训练目标:监督微调任务将train-cott.json置于LLaMA-Factory的data目录即可直接加载;强化学习任务需将Parquet格式数据导入Ego-R1-Agent框架。数据集已预处理好多轮对话结构和基于规则的奖励信号,开发者可通过GitHub仓库提供的后处理代码灵活调整数据格式。值得注意的是,人工标注数据包含六种不同风格的标注者子集,建议根据目标领域特性进行选择性训练。
背景与挑战
背景概述
Ego-R1数据集由EgoLife AI团队开发,旨在推动工具增强推理与强化学习领域的研究进程。该数据集于2023年发布,包含25,000条工具思维链示例和4,400组问答对,为大型语言模型的监督微调与强化学习训练提供了结构化数据支持。其创新性地将工具使用范式融入思维链生成过程,解决了传统语言模型在复杂任务规划与工具调用方面的能力局限,为构建具备现实问题解决能力的智能体奠定了数据基础。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,需解决工具增强推理中多步决策的连贯性验证问题,以及强化学习场景下稀疏奖励信号的有效标注难题;在构建过程中,人工标注4,400组问答对需保持不同标注者间的一致性,而25,000条思维链数据的生成需平衡自动化工具调用逻辑与自然语言表达的合理性。此外,多模态数据处理与不同训练范式(SFT与RL)的数据格式适配也构成了显著的技术挑战。
常用场景
经典使用场景
在人工智能领域,工具增强推理已成为提升大语言模型性能的关键技术。Ego-R1数据集凭借其精心设计的25,000条工具思维链示例和4,400组问答对,为研究人员提供了理想的训练素材。该数据集特别适用于监督微调和强化学习场景,通过模拟真实世界的复杂推理过程,帮助模型掌握多步骤工具调用和决策能力。
实际应用
在实际应用中,Ego-R1数据集已被成功运用于构建智能助手和自动化决策系统。其结构化数据格式与主流训练框架如LLaMA-Factory的高度兼容性,使得开发者能够快速部署个性化解决方案。特别是在需要复杂工具调用的场景,如智能客服、数据分析等领域,基于该数据集训练的模型展现出卓越的实用价值。
衍生相关工作
围绕Ego-R1数据集,学术界已衍生出多项重要研究成果。最具代表性的是Ego-R1 Codebase项目,该项目不仅提供了完整的数据处理流程,还开发了配套的训练框架。此外,基于该数据集的多智能体协作系统和工具增强推理算法研究,正在推动着人机交互技术向更高层次发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作