five

abir-hr196/multilingual_data_tokenized

收藏
Hugging Face2025-04-09 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/abir-hr196/multilingual_data_tokenized
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含多种语言文本的数据集,具体包括德语(deu_Latn_tokenized)、阿拉伯语(arb_Arab_tokenized)、法语(fra_Latn_tokenized)、中文(cmn_Hani_tokenized)和英语(eng_Latn_tokenized)。每个语言都有相应的文本、语言类型、input_ids和attention_mask等信息。数据集分为不同的部分,每个部分包含特定数量的示例和字节数。

This dataset contains text in multiple languages, including German (deu_Latn_tokenized), Arabic (arb_Arab_tokenized), French (fra_Latn_tokenized), Chinese (cmn_Hani_tokenized), and English (eng_Latn_tokenized). Each language has corresponding text, language type, input_ids, and attention_mask information. The dataset is split into different sections, each containing a specific number of examples and bytes.
提供机构:
abir-hr196
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作