TF1-EN-3M
收藏arXiv2025-04-29 更新2025-05-01 收录
下载链接:
https://huggingface.co/klusai/ds-tf1-en-3m
下载链接
链接失效反馈官方服务:
资源简介:
TF1-EN-3M是一个包含三百万个英语寓言的大规模合成数据集,专为训练小型开放语言模型而设计。每个故事都遵循一个六槽脚手架(角色→特征→场景→冲突→解决→道德),通过组合提示引擎生成,确保了体裁的真实性,同时覆盖了广泛的主题空间。数据集的发布为故事生成、道德推理、指令遵循和儿童友好型教育人工智能等领域的研究开辟了新的途径。
提供机构:
克卢日-纳波卡巴比什-波利亚大学, KlusAI实验室
创建时间:
2025-04-29
原始信息汇总
DS-TF1-EN-3M 数据集概述
基本描述
- 名称: Tinyfabulist 3M Dataset
- 类型: 文本生成
- 语言: 英语 (en)
- 标签: 艺术、文学、合成
- 许可证: MIT
- 规模: 1M<n<10M
数据集内容
- 总量: 3,000,000 条道德寓言
- 生成方式: 使用小型指令调优语言模型 (~8B 参数) 合成
- 结构: 遵循标准叙事结构,注重教学清晰性
数据划分
| 划分 | 样本数量 | 百分比 | 描述 |
|---|---|---|---|
| Train | 2,800,000 | 93.3% | 用于模型训练的主要数据集 |
| Validation | 100,000 | 3.3% | 用于模型调优和早停的保留集,监控过拟合 |
| Test | 100,000 | 3.3% | 用于最终无偏性能评估的测试集 |
数据统计
| 指标 | 平均值 | 总计 |
|---|---|---|
| 输入 Tokens | 181.53 | 544,596,141 |
| 输出 Tokens | 339.18 | 1,017,543,978 |
| 总 Tokens | — | 1,562,140,119 |
| 每个寓言的 Tokens | 520.71 | — |
生成成本
| 指标 | 值 |
|---|---|
| 总成本 | $405.76 USD |
| 每1000寓言成本 | $0.1353 USD |
数据模式
| 字段名 | 类型 | 描述 |
|---|---|---|
language |
string | 寓言语言 (en) |
system_message |
string | 指导模型生成的指令 |
prompt |
string | 包含所有叙事元素的完整输入提示 |
prompt_hash |
string | 用于去重和跟踪的唯一哈希 |
fable |
string | 生成的寓言文本 |
llm_name |
string | 使用的语言模型名称 |
llm_input_tokens |
int64 | 输入 tokens 数量 |
llm_output_tokens |
int64 | 输出 tokens 数量 |
llm_inference_time |
float32 | 生成寓言所需时间 (秒) |
host_provider |
string | 托管/云提供商 |
host_dc_provider |
string | 数据中心提供商 |
host_dc_location |
string | 计算资源的地理位置 |
host_gpu |
string | 使用的 GPU 型号 |
host_gpu_vram |
int64 | 使用的 GPU VRAM (GB) |
host_cost_per_hour |
float32 | 每小时托管成本 |
host_cost_per_hour_currency |
string | 成本货币 |
generation_datetime |
datetime | 生成时间戳 |
pipeline_version |
string | 生成管道的版本 |
叙事结构
每个寓言遵循五元素故事框架:
- 主角 - 推动故事发展的核心人物
- 背景 - 故事发生的环境
- 挑战 - 角色面临的问题或冲突
- 结果 - 挑战如何解决
- 教导 - 故事传达的道德或教训
生成方法
- 组合提示: 多样化的叙事元素组合确保主题多样性
- 资源高效模型: 使用1B到8B参数的开源语言模型
- 消费级硬件优化: 可在<24GB VRAM的GPU上运行
质量控制
通过GPT-based文学评论家评估:
- 语法
- 创造性
- 道德清晰度
- 提示遵循度
应用场景
- 教学文本生成
- 道德与伦理AI故事讲述
- 叙事智能研究
- 教育内容创作
项目资源
搜集汇总
数据集介绍

构建方式
TF1-EN-3M数据集的构建采用了结构化模板与组合式提示扩展方法,通过六要素(角色→特质→场景→冲突→解决→寓意)的固定叙事框架,利用不超过80亿参数的开源指令调优模型生成。研究团队设计了包含100个选项的六类参数组合空间,通过均匀采样确保主题多样性,并采用去重、频率过滤和覆盖平衡等策略优化数据分布。生成过程在消费级GPU(<24GB显存)上完成,单次推理成本约为0.135美元/千则寓言,最终形成300万条标准化叙事文本。
特点
该数据集的核心特征体现在三方面:严格的道德叙事结构确保每则寓言包含明确的教育寓意;通过组合式提示设计覆盖超过100^6种理论排列,实现主题与场景的高度多样性;采用混合评估体系(基于GPT的文学批评模型+无参考指标)保障文本质量,其中Llama-3.1-8B模型生成的寓言在语法(8.42/10)、道德清晰度(8.21/10)和模板遵循(8.18/10)等维度表现最优。数据条目附带完整的生成元数据,包括模型配置、计算成本和时效标记,支持研究可复现性分析。
使用方法
使用者可通过Hugging Face Hub获取标准化数据集,每条记录包含原始提示词、生成文本及42项元数据字段。典型应用场景包括:1)微调小型语言模型进行道德叙事生成,利用结构化提示控制输出风格;2)构建道德推理评估基准,通过寓意-情节对应关系测试模型伦理理解能力;3)作为教育AI系统的训练素材,需配合年龄分级标签(92%内容适配4-7岁儿童)筛选适用文本。配套提供的TinyFabulist代码库支持自定义提示元素列表与生成参数,便于扩展多语言或文化适配版本。
背景与挑战
背景概述
TF1-EN-3M数据集由Babes-Bolyai大学和KlusAI Labs的研究团队于2025年4月创建,旨在填补现代自然语言处理领域在道德故事大规模结构化语料库方面的空白。该数据集包含三百万条由不超过80亿参数的语言模型生成的英语寓言,每条故事均遵循六部分结构(角色→特质→背景→冲突→解决→寓意),并通过组合式提示引擎确保体裁一致性与主题多样性。其核心研究问题聚焦于如何通过资源受限的开源模型生成高质量、多样化的道德叙事,为叙事智能、价值对齐及教育型AI研究提供了重要资源。
当前挑战
该数据集面临双重挑战:在领域问题上,需解决传统寓言数据集规模有限导致的道德叙事建模困难,同时确保生成故事兼具语法正确性、创造性和明确的道德寓意;在构建过程中,需克服组合式提示设计对场景覆盖广度的要求,以及在消费级GPU硬件限制下维持生成质量与成本效率的平衡。此外,评估环节需协调基于LLM的批评模型与无参考指标(如Self-BLEU、Flesch易读性),以量化数百万生成故事的多样性与教育适用性。
常用场景
经典使用场景
TF1-EN-3M数据集在自然语言处理领域中被广泛用于训练小型开放语言模型,特别是在道德故事生成和叙事智能研究中。该数据集通过结构化提示生成的300万条英语道德寓言,为研究者在指令跟随、价值对齐和教育友好型AI开发中提供了丰富的实验材料。其经典使用场景包括模型微调实验、叙事连贯性评估以及道德推理能力测试,为资源受限的研究环境提供了高效的数据支持。
实际应用
在教育科技领域,TF1-EN-3M可直接用于开发儿童道德教育工具,如交互式故事生成系统。其标注清晰的道德标签支持构建具有伦理意识的AI应用,包括自动故事问答系统和价值观评估工具。游戏产业可利用该数据集快速生成剧情分支,而心理咨询领域则可将其用于治疗性叙事生成。数据集的小模型兼容性使其能在边缘设备部署,拓展了在资源受限场景的应用可能性。
衍生相关工作
该数据集已催生多个重要研究方向,包括基于TinyStories架构的轻量化叙事模型改进研究。在价值对齐领域,研究者利用其结构化道德标签开发了新型评估基准。部分团队将其与STORAL人类编写数据集结合,探究合成数据对道德推理模型的增强效果。数据集提供的成本基准也促进了生成效率优化的相关研究,推动了8B参数级模型在创造性任务中的应用边界探索。
以上内容由遇见数据集搜集并总结生成



