five

prakod/gcm_enhi_filtred_1100000

收藏
Hugging Face2024-08-16 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/prakod/gcm_enhi_filtred_1100000
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多语言翻译相关的数据,主要用于语言翻译和语言识别任务。数据集包含以下特征字段:idx(索引)、L1(第一语言)、L2(第二语言)、CM_candidates(候选翻译)、CM_candidates_transliterated_indictrans(使用IndicTrans工具转写的候选翻译)和CMI_unicode_based_LID(基于Unicode的语言识别分数)。数据集仅包含训练集,共有1,161,737个样本,总大小为348,045,620字节,下载大小为39,723,187字节。

This dataset contains multilingual translation-related data, primarily used for language translation and language identification tasks. The dataset includes the following feature fields: idx (index), L1 (first language), L2 (second language), CM_candidates (candidate translations), CM_candidates_transliterated_indictrans (candidate translations transliterated using the IndicTrans tool), and CMI_unicode_based_LID (Unicode-based language identification score). The dataset only includes a training set with 1,161,737 samples, totaling 348,045,620 bytes in size, and a download size of 39,723,187 bytes.
提供机构:
prakod
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作