yuzhiliu8/Multilingual-orig
收藏Hugging Face2024-08-13 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/yuzhiliu8/Multilingual-orig
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个语言的分割,分为测试集(test)、训练集(train)和验证集(validation)三个配置。每个配置下包含多个语言的分割(如sw、ga、eus、bn、my等),每个分割的特征包括English和Text,数据类型均为字符串。数据文件以parquet格式存储,路径根据配置和分割的不同而有所变化。
The dataset contains multiple language splits, divided into three configurations: test, train, and validation. Each configuration includes multiple language splits (e.g., sw, ga, eus, bn, my), and each split features English and Text with string data types. The data files are stored in parquet format, with paths varying based on the configuration and split.
提供机构:
yuzhiliu8
原始信息汇总
数据集概述
数据集配置
测试集 (test)
- 特征:
- English: 字符串类型
- Swahili: 字符串类型
- 分割:
- sw_test:
- 字节数: 4,201,090
- 样本数: 12,849
- sw_test:
- 下载大小: 2,903,044 字节
- 数据集大小: 4,201,090 字节
- 数据文件路径: test/sw/*.parquet
训练集 (train)
- 特征:
- English: 字符串类型
- Swahili: 字符串类型
- 分割:
- sw_train:
- 字节数: 34,143,683
- 样本数: 102,792
- sw_train:
- 下载大小: 23,674,910 字节
- 数据集大小: 34,143,683 字节
- 数据文件路径: train/sw/*.parquet
验证集 (validation)
- 特征:
- English: 字符串类型
- Swahili: 字符串类型
- 分割:
- sw_validation:
- 字节数: 4,263,998
- 样本数: 12,849
- sw_validation:
- 下载大小: 2,960,591 字节
- 数据集大小: 4,263,998 字节
- 数据文件路径: validation/sw/*.parquet



