RealStories-Micro-MRL

Hugging Face2025-05-30 更新2025-05-31 收录

下载链接：

https://huggingface.co/datasets/ReactiveAI/RealStories-Micro-MRL

下载链接

链接失效反馈

官方服务：

资源简介：

ReactiveAI RealStories-Micro-MRL是一个专为记忆强化学习设计的合成数据集，用于Reactive Transformer模型的教学。它包含多个子集，每个子集适用于MRL训练的不同教学阶段，具有不同数量的后续交互。数据集是使用TinyStories风格的语言构建的，以避免预训练/微调知识的影响。

创建时间：

2025-05-22

原始信息汇总

数据集概述：ReactiveAI/RealStories-Micro-MRL

数据集简介

目的：首个用于记忆强化学习（MRL）的合成数据集，专为概念验证反应式Transformer模型设计。
特点：包含不同课程阶段的数据子集，每个子集具有不同数量的后续交互和策略。
语言：英语
许可证：Apache-2.0

数据集结构

配置与子集

steps-1：单步策略，训练集约2300条，验证集约340条
steps-2：多步策略，训练集约1600条，验证集约380条
steps-4：多步策略，训练集约1050条，验证集约320条
steps-6：多步策略，训练集约800条，验证集约330条
steps-8：多步策略，训练集约500条，验证集约200条
steps-8-lr（进行中）：长程策略，训练集约300条，验证集约64条
steps-12（进行中）：长程策略，训练集约400条，验证集约128条
steps-16（进行中）：长程策略，训练集约600条，验证集约128条

数据特征

query：字符串类型
answer：字符串类型
interactions：包含answer和query的列表

数据集用途

主要用途：用于RxNN框架中的记忆强化学习。
加载方式：
- 使用MrlDatasets类加载所有课程子集
- 使用MrlCurriculumDataset类单独加载每个子集

数据集创建

创建者：Adam Filipek / Reactive AI
数据生成：使用Qwen3模型系列生成
- Qwen3-4B：用于单步/多步策略
- Qwen3-30B-A3B：用于长程策略

联系方式

联系人：Adam Filipek
邮箱：adamfilipek@rxai.dev

搜集汇总

数据集介绍

构建方式

RealStories-Micro-MRL数据集专为内存强化学习（MRL）算法设计，采用多阶段课程学习策略构建。数据集通过Qwen3系列模型生成，其中Qwen3-4B负责单步和多步策略生成，Qwen3-30B-A3B处理长程策略生成。数据以交互对话形式组织，包含查询（query）和回答（answer）字段，并细分为不同交互步数的子集（如1步、2步、8步等），每个子集均包含训练集和验证集，以适应不同阶段的MRL训练需求。

使用方法

数据集需配合RxNN框架使用，通过专用工具类MrlDatasets实现多课程子集的统一加载。使用前需加载预训练模型ReactiveAI/RxT-Alpha-Micro-Decoder的分词器，通过配置steps参数指定训练阶段。亦支持单独加载特定步数的子集（如steps-4），适用于分阶段验证。数据加载后自动适配Transformer架构，可直接用于MRL算法的记忆检索与响应生成联合训练。

背景与挑战

背景概述

RealStories-Micro-MRL数据集由Reactive AI团队开发，旨在为记忆强化学习（Memory Reinforcement Learning, MRL）提供首个合成数据集，用于概念验证型反应式Transformer模型的训练。该数据集由Adam Filipek等人主导开发，采用Apache-2.0许可协议，专为RxNN框架设计。数据集以英语文本为主，结合了真实世界的事实信息，同时保持了与TinyStories数据集相似的语言风格，以确保MRL训练不受预训练知识的干扰。数据集通过Qwen3系列模型生成，分为多个子集，每个子集对应不同的课程学习阶段，涵盖了单步策略、多步策略及长程策略等多种训练场景。

当前挑战

RealStories-Micro-MRL数据集面临的主要挑战包括：1) 在领域问题方面，该数据集旨在解决记忆强化学习中的事件驱动反应模型训练问题，但如何确保模型在复杂交互场景中保持长期记忆和一致性仍是一个未解难题；2) 在构建过程中，数据集的合成生成依赖于Qwen3系列模型，其生成质量与多样性直接影响了训练效果，同时不同课程阶段的子集划分与策略设计也需要精细平衡，以确保模型能够逐步适应从简单到复杂的交互模式。此外，数据集的规模相对较小，可能限制了模型在更广泛场景下的泛化能力。

常用场景

经典使用场景

在记忆强化学习领域，RealStories-Micro-MRL数据集被设计用于验证反应式Transformer模型的性能。该数据集通过分阶段的课程学习策略，支持从单步到多步交互的训练过程，特别适合用于探索模型在连续决策任务中的表现。其独特的子集划分方式，如steps-1到steps-16，为研究者提供了渐进式训练的可能性，使得模型能够逐步适应复杂的交互场景。

解决学术问题

RealStories-Micro-MRL数据集主要解决了记忆强化学习中的课程学习问题。通过提供不同复杂度的交互子集，该数据集使得研究者能够系统地研究模型在不同记忆长度下的表现。此外，数据集采用合成数据与真实世界知识相结合的方式，确保了模型训练的纯粹性，避免了预训练知识的干扰，为记忆强化学习算法的评估提供了标准化的测试环境。

实际应用

在实际应用中，RealStories-Micro-MRL数据集被广泛用于开发具有记忆能力的对话系统和智能代理。例如，在客服机器人领域，该数据集可以帮助模型学习如何根据历史对话内容做出连贯的回应。其多步交互的设计也使得模型能够模拟人类对话中的上下文依赖性，从而提升实际应用中的交互质量。

数据集最近研究