TinyStories-MRL

Hugging Face2025-06-21 更新2025-06-22 收录

下载链接：

https://huggingface.co/datasets/ReactiveAI/TinyStories-MRL

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个合成的Memory Reinforcement Learning (MRL)数据集，用于Proof-of-Concept Reactive Transformer模型。数据集被分为不同的子集，用于MRL训练的不同Curriculum Stage。每个子集有不同的跟进互动数量，可以使用不同的策略，并且有训练和验证分割。数据集是基于TinyStories数据集的，包括故事和关于其细节的问题/答案。数据集项使用Qwen3模型系列生成，包括Multi-Step Strategy和Long-Range Strategy。

创建时间：

2025-06-20

原始信息汇总

数据集概述：ReactiveAI/TinyStories-MRL

数据集简介

目的：用于记忆强化学习（MRL）的合成数据集，专为概念验证反应式Transformer模型设计。
语言：英语
许可证：Apache-2.0
任务类别：强化学习、问答、文本生成、文本到文本生成、文本检索

数据集结构

数据集按课程阶段划分为多个子集，每个子集包含不同数量的后续交互，并采用不同策略。

子集详情

子集名称	训练样本数	验证样本数	策略类型
`steps-4`	~1280	~320	多步策略
`steps-6`	~950	~350	多步策略
`steps-8`	~650	~260	多步策略
`steps-8-lr`	~700	~260	长程策略
`steps-12`	~380	~140	长程策略（进行中）
`steps-16`	~250	~64	长程策略（进行中）

每个子集的交互次数为steps + 1。

数据集字段

每个子集包含以下字段：

query：初始交互的查询（未由生成模型处理）
answer：初始交互的答案（未由生成模型处理）
interactions：后续交互列表，包含：
- query：生成模型处理的查询
- answer：用于奖励计算的参考答案

数据集创建

生成模型：使用Qwen3系列模型生成。
- 多步策略：Qwen3-4B和Qwen3-30B-A3B
- 长程策略：Qwen3-30B-A3B和Qwen3-235B-A22B
数据过滤：通过BLEU评分过滤不符合要求的样本。
工具：使用Synthetic Datasets Generator (rxai-sdg)生成。

使用建议

用途：专为RxNN框架中的记忆强化学习设计。
加载方式：可通过MrlDatasets或MrlCurriculumDataset加载。

限制与风险

偏见：数据集知识可能受Qwen3训练数据的影响。
推荐：仅用于实验研究模型训练。

联系方式

联系人：Adam Filipek
邮箱：adamfilipek@rxai.dev

搜集汇总

数据集介绍

构建方式

TinyStories-MRL数据集专为内存强化学习（MRL）算法设计，采用多阶段课程学习策略构建。数据生成基于Qwen3系列模型，通过精心设计的提示工程生成多样化的故事及问答对。为确保数据质量，研究团队采用深度过滤机制，包括重复查询检测和基于BLEU分数的主题一致性验证。特别针对长程策略数据，开发了多层过滤标准以保证话题转换的合理性。

特点

该数据集包含多个课程子集，分别对应4至16步不等的交互深度，涵盖多步策略和长程策略两种学习模式。每个数据样本包含初始查询-回答对及后续交互序列，为模型提供渐进式记忆训练场景。数据采用标准化结构存储，包含明确划分的训练集和验证集，支持不同复杂度模型的开发需求。英语单语种特性使其成为研究记忆机制的理想测试平台。

使用方法

数据集需配合RxNN框架专用工具链使用，通过MrlDatasets类可实现多课程阶段联合加载。使用前需加载指定分词器进行数据预处理，支持整体加载或分阶段加载两种模式。研究人员可根据训练需求选择不同策略的子集，通过调整steps参数控制记忆回溯深度。验证集专门用于评估模型在记忆保持和话题关联方面的表现。

背景与挑战

背景概述

TinyStories-MRL数据集由Reactive AI团队开发，旨在支持记忆强化学习（Memory Reinforcement Learning, MRL）的研究与应用。该数据集基于TinyStories数据集，通过合成方法生成，包含故事及其相关问答对，专为微尺度概念验证模型RxT-Alpha-Micro设计。数据集由Adam Filipek等人主导开发，采用Apache-2.0许可，语言为英文。其核心研究问题聚焦于如何通过多步交互和长程策略优化模型的记忆能力，为事件驱动的反应式模型提供训练基础。该数据集的推出为记忆强化学习领域提供了首个标准化数据集，对推动相关算法的发展具有重要意义。

当前挑战

TinyStories-MRL数据集面临的主要挑战包括：1) 领域问题的挑战：如何有效利用多步交互数据优化模型的记忆能力，尤其是在长程策略中确保话题切换的连贯性；2) 构建过程中的挑战：数据生成依赖Qwen3系列模型，但其生成结果存在重复性和话题混合问题，需通过BLEU评分等复杂过滤机制确保数据质量。此外，长程策略的实现需依赖更大规模的模型，如Qwen3-235B-A22B，增加了数据生成的复杂性和成本。

常用场景

经典使用场景

TinyStories-MRL数据集专为内存强化学习（MRL）算法设计，其经典使用场景包括训练和验证Reactive Transformer模型。该数据集通过多步骤交互和长范围策略，模拟了真实世界中的对话和记忆强化过程，为模型提供了丰富的训练样本。数据集的分阶段设计使得模型能够逐步适应不同复杂度的任务，从而提升其记忆和推理能力。

衍生相关工作

TinyStories-MRL数据集衍生了一系列经典工作，包括RxT-Alpha-Micro模型的预训练和微调。基于该数据集的研究还推动了RxNN框架的发展，为内存强化学习提供了工具支持。此外，数据集的生成方法（如使用Qwen3模型和BLEU评分过滤）也为其他合成数据集的创建提供了参考。

数据集最近研究