TinyStories-Interaction-SFT

Hugging Face2025-05-17 更新2025-05-18 收录

下载链接：

https://huggingface.co/datasets/ReactiveAI/TinyStories-Interaction-SFT

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于roneneldan/TinyStories数据集的监督微调数据集，用于Reactive Transformer架构的第二阶段训练验证。数据集包含问题和答案字段，适用于问答、文本生成和填空等任务。数据集由Qwen3-4b模型生成，经过后处理以增加多样性。包含约12万行数据，分为训练集和验证集。

创建时间：

2025-05-12

原始信息汇总

数据集概述：ReactiveAI/TinyStories-Interaction-SFT

数据集描述

目的：用于反应式Transformer第二训练阶段概念验证的监督微调数据集。
基础数据：基于roneneldan/TinyStories生成。
语言：英文
许可证：Apache-2.0
规模：10万<n<100万样本

数据集结构

特征：
- query：字符串类型
- answer：字符串类型
数据分块：
- 训练集（train）：102,717条样本，53,100,808字节
- 验证集（validation）：15,735条样本，8,196,916字节
总量：83,455,163字节
下载大小：154,734,378字节

使用场景

直接用途：适用于反应式模型的监督微调研究。
限制用途：不含真实世界知识，仅限研究使用，不适用于生产模型。

创建细节

生成方式：由Qwen3-4b模型批量生成（每批20条），温度参数0.7。
后处理：替换高频重复名称以增强多样性（200个高频名替换为1000个新随机名）。
生产者：Adam Filipek监督生成。

风险与限制

样本相似性：生成模型可能在同一批次中产生相似主题的交互。
长度限制：每条交互最多256个token（query显著短于answer）。

联系方式

Adam Filipek：adamfilipek@rxai.dev

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的训练数据集对模型性能至关重要。TinyStories-Interaction-SFT数据集基于roneneldan/TinyStories数据集，采用Qwen3-4b模型通过Novita平台批量生成交互式文本。生成过程中采用0.7的温度参数和默认的top p/top k设置，每次产生约20条记录。为消除命名重复带来的偏差，对高频出现的200多个名字进行了随机替换，引入约1000个新名字，显著提升了数据多样性。

使用方法

该数据集适用于微型研究模型的监督微调，特别是类似RxT-Alpha-Micro这类基于短时记忆架构的模型。使用时可直接加载训练集和验证集，重点关注query-answer对的生成质量。由于数据规模较小且完全合成，建议仅用于研究目的。为避免模型过拟合，训练过程中应充分打乱数据顺序，并注意监控验证集上的表现。

背景与挑战

背景概述

TinyStories-Interaction-SFT数据集由Reactive AI团队开发，旨在为基于Reactive Transformer架构的实验性模型提供监督微调数据。该数据集基于roneneldan/TinyStories数据集构建，专注于处理单一交互序列，并将对话历史存储于模型的短期记忆中，而非传统语言模型中每次处理全部历史的方式。数据集采用问答形式，包含查询和答案两个字段，格式简洁，适用于微调阶段的研究需求。其核心研究问题在于探索事件驱动的反应式模型在有限上下文条件下的性能表现，为小规模语言模型的研究提供了新的实验平台。

当前挑战

该数据集面临的主要挑战包括：在领域问题层面，如何确保生成式问答对在有限标记长度（最多256个标记）内保持语义连贯性，同时避免传统长上下文依赖问题；在构建过程中，生成模型存在重复使用特定名称的倾向性，需通过后处理替换高频名称以消除偏见。此外，批量生成机制可能导致同一批次的问答对主题相似性过高，尽管通过训练时的随机洗牌可部分缓解，但仍可能影响模型对多样化输入的适应能力。数据集规模虽经扩展至约10万条训练样本，但对于复杂任务仍显不足，且存在潜在的知识泄露风险，需谨慎用于研究用途。

常用场景

经典使用场景

在自然语言处理领域，TinyStories-Interaction-SFT数据集为研究者提供了一个独特的实验平台，专门用于监督式微调（Supervised Fine-Tuning）任务。该数据集通过模拟对话形式的问答对，为模型训练提供了简洁而高效的交互数据。其典型应用场景包括训练小型语言模型，尤其是那些专注于单序列处理的反应式模型（Reactive Transformer），以验证其在有限上下文条件下的生成能力。

解决学术问题

该数据集有效解决了反应式模型微调阶段的数据稀缺问题。传统语言模型通常依赖长序列历史上下文，而TinyStories-Interaction-SFT通过精心设计的问答格式，将对话历史压缩至内部短期记忆中，显著降低了计算复杂度。这一创新为研究内存效率与模型性能的平衡提供了重要实验基础，尤其对资源受限环境下的模型部署具有启示意义。

实际应用

虽然设计为研究用途，该数据集的实际价值体现在教育科技领域。其生成的简单故事问答对可作为儿童语言学习工具的测试素材，帮助评估AI系统的初级语言理解能力。在模型架构验证方面，数据集的小规模特性使其成为快速迭代新型Transformer变体的理想测试平台，例如验证反应式Transformer中短期记忆机制的有效性。

数据集最近研究