AMPO

Hugging Face2025-05-07 更新2025-05-08 收录

下载链接：

https://huggingface.co/datasets/iiiiwis/AMPO

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于文本生成任务的数据集，包含了行为克隆（BC）和强化学习（RL）两种训练方法所需的训练数据。数据集遵循Apache-2.0许可。用户需要根据README中的指示设置数据路径，并将数据转换为特定格式以进行训练。

创建时间：

2025-05-05

原始信息汇总

数据集概述

基本信息

数据集名称: AMPO
许可证: Apache-2.0
任务类别: 文本生成

数据内容

包含BC（行为克隆）和RL（强化学习）的训练数据。

使用说明

BC训练

使用LLaMA-Factory进行训练。
需在./BC/data/dataset_info.yaml中设置bc_training_data_path。

RL训练

使用verl进行训练。
需通过./RL/example/data_preprocess/sotopia.py脚本将RL训练数据转换为".parquet"格式。

搜集汇总

数据集介绍

构建方式

在社交智能体研究领域，AMPO数据集的构建采用了行为克隆（BC）与强化学习（RL）相结合的双轨策略。研究团队基于LLaMA-Factory框架对BC训练数据进行处理，通过规范化路径配置实现数据集成。针对RL训练数据，则采用定制化预处理流程，利用Python脚本将原始数据转换为高效的.parquet列式存储格式，确保数据处理的灵活性与性能优化。这种混合式构建方法充分融合了模仿学习与强化学习的双重优势。

特点

AMPO数据集作为社交智能体适应性思维研究的基准资源，其核心价值体现在多模态训练范式的创新整合。数据集不仅包含标准的行为克隆数据，还创新性地融入了基于强化学习的交互轨迹，为研究社交情境下的动态决策提供了丰富样本。数据格式采用现代列式存储标准，兼顾处理效率与跨平台兼容性，配合开源训练框架实现了从数据到模型的无缝对接。

使用方法

使用AMPO数据集需遵循模块化操作流程，对于BC训练环节，用户需在LLaMA-Factory框架中配置数据集路径参数以启动训练流程。RL训练阶段则要求预先执行数据格式转换，通过官方提供的预处理脚本生成标准化.parquet文件。研究团队在GitHub仓库中完整公开了训练代码与数据处理范例，用户可结合论文中的方法论说明，快速构建社交智能体适应性思维的端到端训练管线。

背景与挑战

背景概述

AMPO数据集由MozerWang团队于2024年发布，作为强化学习与行为克隆技术在社交智能体领域的重要实践成果。该数据集源自论文《Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents》，聚焦于通过大语言模型实现社交场景下的动态决策能力培养。研究团队基于LLaMA架构和VERL框架，构建了包含行为克隆（BC）与强化学习（RL）双模态的训练数据体系，为开发具有上下文适应能力的对话系统提供了关键数据支撑。其创新性地将认知灵活性建模融入数据构造过程，显著推动了人机交互领域自适应算法的研究进程。

当前挑战

该数据集面临的核心挑战体现在算法适配与数据转化两个维度。在领域问题层面，社交场景的开放性与多变性要求模型具备实时策略调整能力，这对行为克隆数据的覆盖广度与强化学习奖励函数的设计精度提出了极高要求。技术实现过程中，原始对话数据向LLaMA-Factory可处理格式的转换存在序列对齐难题，而RL训练所需的.parquet格式转化涉及复杂的状态-动作空间映射。数据构建阶段还需平衡模仿学习样本的静态特性与强化学习动态探索之间的固有矛盾，这种双轨训练体系的协同优化成为技术突破的关键瓶颈。

常用场景

经典使用场景

在自然语言处理领域，AMPO数据集为基于强化学习的社交智能体研究提供了关键训练资源。该数据集通过行为克隆(BC)和强化学习(RL)两种范式，支持开发具有自适应对话能力的社交代理。研究人员可基于LLaMA-Factory框架进行监督微调，或通过verl工具实现强化学习训练，特别适合探索多轮对话中的动态决策过程。

解决学术问题

该数据集有效解决了社交智能体研究中环境适应性与决策实时性的核心挑战。通过包含多样化的社交互动数据，支持研究者突破传统对话系统静态回应的局限，推动实现更接近人类思维的动态推理能力。其提供的双模态训练路径为对比不同学习范式在社交语境下的表现提供了基准平台。

衍生相关工作

围绕AMPO数据集已衍生出多个社交智能体方向的创新研究。原始论文提出的动态思维框架被扩展应用于多模态对话系统，后续工作如SoTopia项目进一步结合该数据集开发了情境感知训练管道。在ICLR等顶会上，基于AMPO数据集的迁移学习方法持续推动着对话系统的适应性研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集