five

SPRINGLab/shiksha

收藏
Hugging Face2024-12-16 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/SPRINGLab/shiksha
下载链接
链接失效反馈
官方服务:
资源简介:
Shiksha数据集是一个专注于技术领域的翻译数据集,涵盖了8种印度语言与英语之间的翻译对。数据集包含超过250万行的翻译数据,数据来源于NPTEL文档。数据集的特性包括源语言、目标语言、源文本、目标文本、分数、课程ID和讲座ID等字段。数据集分为训练集和测试集,训练集包含2519061个样本,测试集包含277715个样本。数据集的许可证为cc-by-4.0,任务类别为翻译,涉及的语言包括印地语、孟加拉语、泰米尔语、泰卢固语、卡纳达语、古吉拉特语、马拉地语和马拉雅拉姆语。

The Shiksha Dataset is a Technical Domain focused Translation Dataset for 8 Indian Languages. It consists of more than 2.5 million rows of translation pairs between all 8 languages and English. The data has been derived from raw NPTEL documents. The dataset features include source language, target language, source text, target text, score, course ID, and lecture ID. The dataset is divided into a training set with 2519061 examples and a test set with 277715 examples. The dataset is licensed under cc-by-4.0, and the task category is translation, involving languages such as Hindi, Bengali, Tamil, Telugu, Kannada, Gujarati, Marathi, and Malayalam.
提供机构:
SPRINGLab
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作