ReactiveAI/TinyStories-SMAT
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ReactiveAI/TinyStories-SMAT
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: steps-7
features:
- name: interactions
list:
- name: answer
dtype: string
- name: query
dtype: string
splits:
- name: train
num_bytes: 60022850
num_examples: 20774
download_size: 23632957
dataset_size: 60022850
- config_name: steps-7-retrieval
features:
- name: interactions
list:
- name: answer
dtype: string
- name: query
dtype: string
splits:
- name: train
num_bytes: 27576464
num_examples: 15867
download_size: 13747351
dataset_size: 27576464
- config_name: steps-7-retrieval-augmented
features:
- name: interactions
list:
- name: answer
dtype: string
- name: query
dtype: string
splits:
- name: train
num_bytes: 110664449
num_examples: 63668
download_size: 14834002
dataset_size: 110664449
configs:
- config_name: steps-7
data_files:
- split: train
path: steps-7/train-*
- config_name: steps-7-retrieval
data_files:
- split: train
path: steps-7-retrieval/train-*
- config_name: steps-7-retrieval-augmented
data_files:
- split: train
path: steps-7-retrieval-augmented/train-*
---
提供机构:
ReactiveAI
搜集汇总
数据集介绍

构建方式
TinyStories-SMAT数据集基于TinyStories语料库构建,通过引入静态记忆与自适应主题(SMAT)机制,模拟多轮交互式故事生成场景。每个配置版本对应不同的交互步骤数(如steps-7),并衍生出检索增强(retrieval)与长上下文(long)变体。数据以问答对(query-answer)形式组织,其中query代表用户提示或故事上下文,answer代表模型生成的延续内容。augmented版本进一步整合外部知识检索结果,以扩展故事生成的多样性与连贯性。
使用方法
使用时,可通过HuggingFace Datasets库按配置名称加载相应子集,如`load_dataset('TinyStories-SMAT', 'steps-7')`。模型训练或评估时,需将query字段作为输入,answer字段作为目标输出。检索增强版本需配合外部知识库索引进行查询,长上下文版本则适用于需要处理更长故事序列的场景。数据集的训练/验证划分已预先定义,可直接用于监督学习或条件生成任务。
背景与挑战
背景概述
TinyStories-SMAT数据集诞生于大语言模型可解释性与安全对齐研究的前沿领域,由研究团队针对小型语言模型在复杂推理任务中的行为模拟与交互过程而精心构建。该数据集以TinyStories为基础,通过多步骤交互设计,记录了模型在生成故事时的查询与回答序列,旨在探索语言模型在受限资源下的推理路径与行为模式。其核心研究问题聚焦于如何通过结构化交互数据,揭示小模型在文本生成过程中的内在逻辑与潜在偏差。自发布以来,该数据集为模型鲁棒性评估、安全对齐测试以及可解释性分析提供了宝贵的基准资源,尤其在低计算开销环境下推动了对语言模型微观行为的深入理解。
当前挑战
该数据集面临的核心挑战源自领域问题与构建过程的双重复杂性。在领域层面,小语言模型在生成连贯且逻辑一致的长文本时,常暴露出因果推理薄弱与记忆性幻觉的固有缺陷,TinyStories-SMAT需有效捕捉这些细微行为以诊断模型脆弱性。在构建过程中,设计多步骤交互(如steps-7-retrieval-long等配置)时,需要平衡检索增强与生成流畅性,确保数据覆盖多样化的推理路径,同时避免过度引导或数据冗余。此外,标注大规模交互样本的语义一致性、处理长上下文依赖关系以及剥离噪声干扰,均对数据质量和规模提出了严苛要求。
常用场景
经典使用场景
TinyStories-SMAT数据集由多个子集构成,核心是围绕“故事生成”这一任务设计的多轮交互对话数据。其经典使用场景在于为小型语言模型(如参数低于1B的TinyStories系列模型)提供细粒度的指令微调与对齐训练素材。研究者可利用其中“query-answer”配对结构,训练模型在有限上下文中生成连贯且富有逻辑的短篇叙事,尤其适合探索模型在低资源条件下的故事创作能力与语言理解深度。
解决学术问题
该数据集旨在解决小型语言模型在叙事生成任务中面临的数据稀疏性与对齐困难问题。传统大规模语料库多聚焦于百科或新闻领域,缺乏针对儿童化、简单词汇故事的精细化标注。TinyStories-SMAT通过引入多轮检索增强版本(如retrieval-augmented子集),为研究如何利用外部知识辅助模型生成、缓解幻象提供了标准化评测基准,推动了低参数量模型在可控文本生成领域的理论发展。
实际应用
实际应用中,TinyStories-SMAT可支撑儿童教育场景下的智能化故事创作系统,如根据指定主题或关键词自动生成寓教于乐的短篇读物。其检索增强子集(例如steps-7-retrieval)特别适用于开发问答型故事助手,允许模型在对话中动态检索相关情节以保持叙事连贯性。此外,该数据集还能为新媒体平台提供轻量级内容生成工具,助力自动化生产符合低龄读者认知水平的科普或童话内容。
数据集最近研究
最新研究方向
TinyStories-SMAT数据集聚焦于探究小规模语言模型在复杂叙事生成与检索增强场景下的交互能力,其多配置版本(如基础型、检索型与长文本增强型)为评估模型在有限参数空间内融合外部知识、维持长程叙事连贯性提供了前沿实验基准。该数据集与当前轻量化AI部署、边缘计算及资源受限环境下的自然语言处理热点高度契合,尤其通过检索增强配置揭示小模型如何借助外部语料库弥补语义容量短板,对推动高效能、低能耗的文本生成系统在智能教育、辅助创作等领域的应用具有关键意义。
以上内容由遇见数据集搜集并总结生成



