five

ccibeekeoc42/TinyStories_igbo

收藏
Hugging Face2024-04-07 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/ccibeekeoc42/TinyStories_igbo
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从原始的TinyStories英语数据集翻译而来的伊博语平行语料库。每个故事都经过精心翻译,以保留其简单性和教育价值。数据集包含两个主要文件:一个包含AI生成的伊博语翻译,另一个包含经过人工审校的伊博语翻译。这些数据集可用于多种自然语言处理任务,如翻译模型的训练和评估、跨语言研究以及特定语言社区的语言模型微调。

该数据集是从原始的TinyStories英语数据集翻译而来的伊博语平行语料库。每个故事都经过精心翻译,以保留其简单性和教育价值。数据集包含两个主要文件:一个包含AI生成的伊博语翻译,另一个包含经过人工审校的伊博语翻译。这些数据集可用于多种自然语言处理任务,如翻译模型的训练和评估、跨语言研究以及特定语言社区的语言模型微调。
提供机构:
ccibeekeoc42
原始信息汇总

TinyStories English-Igbo Parallel Corpus

描述

本数据集包含从原始英语TinyStories数据集翻译而来的故事,旨在保留目标年龄段的教育价值和简单性。数据集分为两个主要文件:

组成

  • Igbo Translations: 包含翻译成Igbo语言的故事,以及原始英语文本作为参考。每个文件包含以下列:
    • Igbo_AI: 使用Google Translate生成的Igbo语言AI翻译。
    • Igbo: 经过人工审核和精炼的Igbo语言翻译。

使用

该数据集适用于多种NLP任务,包括但不限于:

  • 翻译模型的训练和评估。
  • 跨语言故事理解和语言学习研究。
  • 针对特定语言社区的语言模型微调。

许可证

翻译数据集遵循Apache2.0许可证,与原始TinyStories数据集的许可条款一致。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作