prakod/gcm_enhi_filtred_900000

Name: prakod/gcm_enhi_filtred_900000
Creator: prakod
Published: 2024-08-16 17:14:40
License: 暂无描述

Hugging Face2024-08-16 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/prakod/gcm_enhi_filtred_900000

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集可能用于语言学习或语言识别任务，包含两种语言的文本数据（L1和L2），以及相关的候选翻译或转写（CM_candidates和CM_candidates_transliterated_indictrans）。此外，数据集还包含一个基于Unicode的语言识别分数（CMI_unicode_based_LID）。数据集分为训练集，包含1,170,381个样本，总大小为351,432,143字节。

This dataset is likely used for language learning or language identification tasks, containing text data in two languages (L1 and L2), along with related candidate translations or transliterations (CM_candidates and CM_candidates_transliterated_indictrans). Additionally, the dataset includes a Unicode-based language identification score (CMI_unicode_based_LID). The dataset is divided into a training set, containing 1,170,381 samples, with a total size of 351,432,143 bytes.

提供机构：

prakod

5,000+

优质数据集

54 个

任务类型

进入经典数据集