five

multilingual-tinystories

收藏
Hugging Face2026-03-15 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/neuralnets/multilingual-tinystories
下载链接
链接失效反馈
官方服务:
资源简介:
Multilingual TinyStories 是一个包含多种印度语言儿童故事的数据集,专为语言模型训练而生成。数据集涵盖17种印度语言,包括阿萨姆语、多格里语、古吉拉特语、卡纳达语、马拉雅拉姆语、曼尼普尔语、尼泊尔语、奥里亚语、旁遮普语、梵语、桑塔利语、信德语、泰米尔语、泰卢固语和乌尔都语等。总共有132,942个故事,93,909,863个标记。每个故事以原生脚本存储,并配有唯一的索引标识符。数据集适用于小型语言模型训练、多语言语言模型研究、跨语言迁移学习和教育应用。数据通过语言模型生成,经过清理以确保内容适合儿童阅读,但可能存在文化或语言上的不准确之处。数据集采用CC-BY-4.0许可。
创建时间:
2026-03-12
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作