klusai/ds-tf3-ro-3m
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/klusai/ds-tf3-ro-3m
下载链接
链接失效反馈官方服务:
资源简介:
ds-tf3-ro-3m数据集包含300万条罗马尼亚语的合成道德寓言,由TF3学生模型(klusai/tf3-26m-student)生成。该模型是一个2290万参数的LLaMA风格语言模型,专门针对罗马尼亚寓言数据进行训练。数据集的目标受众为4-7岁的儿童(Grupa B),平均每则寓言约256字。生成方法是通过结构化实体组合(角色、背景、挑战、解决、道德)从2120万种可能的组合中采样生成。每条记录包含一个fable字段,存储生成的寓言文本。
The ds-tf3-ro-3m dataset contains 3 million Romanian-language synthetic moral fables generated by the TF3 student model (`klusai/tf3-26m-student`), a 22.9M-parameter LLaMA-style language model trained from scratch on Romanian fable data. The target audience is children aged 4-7 (Grupa B), with an average length of ~256 words per fable. The generation method involves prompting with structured entity combinations (character, setting, challenge, resolution, moral) sampled from a pool of 21.2M possible combinations. Each example contains a single field: fable (string), which stores the generated fable text in Romanian.
提供机构:
klusai
搜集汇总
数据集介绍

构建方式
该数据集名为ds-tf3-ro-3m,由罗马尼亚语微型道德寓言构成,由TF3学生模型(klusai/tf3-26m-student)生成。该模型参数规模为22.9M,采用LLaMA架构,从零开始在罗马尼亚语寓言数据上训练,并经过知识蒸馏与监督微调优化。数据集通过结构化实体组合提示生成,涵盖角色、场景、挑战、结局与道德主题五大要素,从约2120万种可能的组合中采样,最终生成300万条寓言。每条寓言平均长度约为256词,专为4至7岁儿童设计。
特点
数据集覆盖300万条标准罗马尼亚语合成寓言,语言纯净统一,聚焦儿童道德教育场景。每条数据仅包含单一字段“fable”,结构简洁,便于直接加载与使用。寓言内容由结构化实体组合自动生成,确保了主题多样性,同时保持了语言风格与道德导向的一致性。数据的合成方式还赋予其高度可控的可扩展性,适于在低资源语言环境下训练或评估生成式语言模型。
使用方法
该数据集可通过HuggingFace的datasets库直接加载,使用load_dataset("klusai/ds-tf3-ro-3m")命令即可获取训练集。每条样本以字典形式存储,通过键“fable”访问对应寓言文本。数据集适用于文本生成任务的预训练或微调,尤其适合在罗马尼亚语场景下训练小规模语言模型。所有数据均采用Apache 2.0许可证开放使用,便于学术研究与工业部署。
背景与挑战
背景概述
在神经语言模型蓬勃发展、多语言文本生成日益普及的当下,如何为资源相对稀缺的语言(如罗马尼亚语)构建高质量、规模可观的训练语料,成为自然语言处理领域的重要课题。该数据集由klusai团队于近期创建,核心研究问题在于探索利用小型学生模型(22.9M参数,基于LLaMA架构)从零开始生成罗马尼亚语道德微型小说(寓言)的可行性与效果。3百万条合成寓言以儿童(4-7岁)为目标受众,平均长度约256词,通过结构化实体组合提示(涵盖角色、场景、挑战、解决方案、道德寓意)生成,旨在为低资源语言的文本生成与道德教育内容构建提供规模化数据支撑,对推动罗马尼亚语语言模型训练与教育领域的人工智能应用具有示范意义。
当前挑战
该数据集面临的挑战首先体现在领域问题层面:罗马尼亚语作为低资源语言,缺乏大规模、高质量的标注文本用于语言模型训练,而道德微型小说要求文本兼具叙事连贯性、教育价值与语言自然度,对生成模型的能力有较高要求。构建过程中则需克服多重技术难点:学生模型仅22.9M参数,参数规模极小,需依赖教师模型(50M)的知识蒸馏与监督微调来提升生成质量;从21.2M种可能的实体组合中采样并保持生成内容的多样性,同时确保每则寓言长度与结构稳定;合成文本可能存在重复模式、道德寓意表达偏差或语言流畅性不足,需设计有效的提示策略与质量控制机制,以保障最终数据集在儿童教育场景中的适用性。
常用场景
经典使用场景
在道德寓言与儿童叙事生成研究领域,ds-tf3-ro-3m作为迄今规模最大的罗马尼亚语合成寓言数据集,为文本生成模型的训练与评估提供了独特基准。研究者常利用其约300万条结构清晰、蕴含道德教诲的短篇寓言,开展少样本条件下的寓言语境理解、角色关系推理与道德主题分类等经典任务。该数据集的生成源于21.2万种角色、场景、挑战、结局与道德的组合范式,使得科学研究能够系统性地探索语言模型在约束性叙事结构与伦理内涵生成方面的能力,成为衡量小参数模型在低资源语言上文本生成表现的关键测试平台。
实际应用
在实际应用层面,该数据集最直接的价值在于赋能面向罗马尼亚语儿童(4-7岁)的智能教育内容生成系统。开发者可以利用这批蕴含明确道德寓意的寓言文本,训练自动故事生产引擎,为孩子提供无限量、主题可定制的寓言资源,从而辅助家长与教师进行价值观启蒙。此外,基于该数据集训练的语言模型还能集成到儿童阅读应用、家庭教育机器人或个性化学习平台中,依据儿童的心理发展阶段动态生成适龄的道德教育故事。其合成特性也降低了版权与伦理审查风险,为商业化的低资源语言教育产品提供了低成本、高可扩展性的内容解决方案。
衍生相关工作
围绕ds-tf3-ro-3m衍生了一系列相互关联的学术工作与模型资源,形成了完整的罗马尼亚语寓言生成技术栈。生成该数据集的学生模型klusai/tf3-26m-student是对教师模型(klusai/tf3-50m-base与tf3-50m-sft)进行知识蒸馏与监督微调的产物,展示了在参数量从50M降至22.9M时仍能保持良好文本生成质效的技术路径。前瞻性的预训练语料库klusai/ds-tf2-en-ro-3m以及用于蒸馏与微调的高质量标注集klusai/ds-tf2-en-ro-15k共同构成了该数据集的上下游生态。这些成果共同推动了通过合成数据与模型压缩技术在低资源语言上构建紧凑、高效文本生成系统的研究范式。
以上内容由遇见数据集搜集并总结生成



