raja20221020/multilingual-pretrain-dataset-tokenized

Name: raja20221020/multilingual-pretrain-dataset-tokenized
Creator: raja20221020
Published: 2025-09-13 22:18:33
License: 暂无描述

Hugging Face2025-09-13 更新2025-10-25 收录

下载链接：

https://hf-mirror.com/datasets/raja20221020/multilingual-pretrain-dataset-tokenized

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含英语、阿瓦德语和印地语三种语言的数据集，每种语言都有训练集、验证集和测试集。数据集的特征包括输入序列（input_ids）和标签序列（labels）。

This dataset includes English, Awadhi, and Hindi languages, with each language having its own training, validation, and test sets. The features of the dataset include input sequence (input_ids) and label sequence (labels).

提供机构：

raja20221020

5,000+

优质数据集

54 个

任务类型

进入经典数据集