TinyStories-QA-SFT-v2

Hugging Face2025-05-12 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/ReactiveAI/TinyStories-QA-SFT-v2

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于合成简单故事的问答监督微调数据集，包含问题和答案两个字段，分为训练集和验证集两部分，适用于Reactive Transformer架构的微调训练。

创建时间：

2025-05-12

原始信息汇总

数据集概述：ReactiveAI/TinyStories-QA-SFT v2

数据集基本信息

维护者：Reactive AI
语言：英语
许可证：Apache-2.0
下载大小：45.44 MB
数据集大小：51.65 MB

数据集结构

特征：
- query：字符串类型
- answer：字符串类型
数据划分：
- train：51,699 条样本，25.90 MB
- validation：7,160 条样本，3.59 MB

数据集用途

主要用途：用于反应式模型的监督微调（Supervised Fine-Tuning）。
直接使用：适用于研究用途，数据集简单、小型且为合成数据。
超出范围的使用：不适用于生产模型，不包含真实世界知识。

数据集创建

创建动机：为基于Reactive Transformer架构的实验模型提供微调数据集。
源数据：受roneneldan/TinyStories数据集启发生成。
数据收集与处理：
- 使用Qwen3-4b模型生成。
- 生成后进行了名称多样化处理，以减少重复名称带来的偏差。
数据生产者：由Adam Filipek监督生成。

偏见、风险与限制

限制：
- 数据集较小，每条记录最多256个token。
- 部分记录可能非常相似，生成模型倾向于在单次运行中生成相似主题的交互。
推荐用途：建议用于训练微型研究模型，如RxT-Alpha-Micro。

联系方式

联系人：Adam Filipek
邮箱：adamfilipek@rxai.dev

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，TinyStories-QA-SFT-v2数据集的构建采用了基于TinyStories语料的合成生成策略。通过Qwen3-4b模型以0.7温度参数批量生成交互式文本，每个样本包含查询与回答两个字段。为消除命名偏见，开发团队对高频重复的200余个人名进行了随机替换处理，最终形成包含约10万训练样本与1.5万验证样本的标准化数据集。

特点

该数据集专为反应式Transformer架构设计，其显著特征在于采用简化的交互格式[Q]查询[A]回答，最大序列长度限制在256个标记以内。所有文本内容均为合成生成的英文儿童故事问答，不涉及现实世界知识。数据分布呈现查询字段显著短于回答字段的特点，且通过后处理技术确保了命名实体的多样性，有效避免了模型过拟合特定名称的风险。

使用方法

作为监督微调专用数据集，其主要应用于反应式Transformer模型的第二阶段训练。使用者可直接加载训练集与验证集进行模型优化，每个样本应保持查询与回答的独立性和完整性。由于数据完全基于合成生成，建议仅用于微型研究模型的实验验证，避免在生产环境中部署使用。训练时需注意数据洗牌处理以缓解批量生成导致的主题相似性问题。

背景与挑战

背景概述

自然语言处理领域中的监督微调技术对提升模型交互能力具有关键作用。TinyStories-QA-SFT-v2数据集由Reactive AI团队于2024年构建，专为创新型反应式Transformer架构的第二阶段概念验证设计。该数据集基于roneneldan/TinyStories的叙事框架，通过合成生成技术构建了包含约11.8万条交互样本的问答对，其核心目标在于探索事件驱动型语言模型在短时记忆机制下的对话生成能力，为轻量化语言模型的研究提供了重要实验基础。

当前挑战

该数据集需解决反应式Transformer模型在交互格式适配中的结构化挑战，包括短时记忆机制下的对话连贯性保持与响应生成一致性。构建过程中面临合成数据多样性的技术瓶颈，生成模型对特定名称存在重复偏好，需通过后处理替换200余个高频名称以消除偏差。同时批量生成机制导致相邻样本主题相似性较高，虽经随机化处理仍可能影响模型对多样化语境的理解能力。

常用场景

经典使用场景

在自然语言处理领域，TinyStories-QA-SFT-v2数据集主要应用于反应式Transformer架构的监督微调阶段。该数据集通过精心设计的问答对格式，为模型提供了标准化的交互训练样本。其典型使用场景包括训练反应式语言模型适应交互式对话格式，帮助模型学习在有限上下文条件下生成连贯的响应。数据集中的每个样本都遵循严格的令牌长度限制，确保训练过程的高效性和稳定性。

解决学术问题

该数据集有效解决了反应式Transformer架构在微调阶段面临的数据格式适配问题。传统语言模型需要处理完整的对话历史，而反应式模型将历史信息存储在短期记忆中，仅处理当前交互。这种创新架构要求专门的训练数据来引导模型生成符合[Q]查询[A]回答格式的响应。数据集填补了该领域高质量微调数据的空白，为新型神经网络架构的研究提供了重要支撑。

衍生相关工作

围绕该数据集衍生出了一系列重要的研究工作，其中最突出的是RxT-Alpha-Micro系列模型的开发。这些微型模型充分利用数据集的特性，验证了反应式Transformer架构的可行性。相关研究还推动了交互式语言模型训练范式的创新，启发了更多关于短期记忆机制在自然语言处理中应用的探索。这些工作共同构成了反应式人工智能研究的重要基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集