LightFury9/CulturaX_tenglish_split2
收藏Hugging Face2024-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LightFury9/CulturaX_tenglish_split2
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: translit
dtype: string
splits:
- name: split1
num_bytes: 83350064
num_examples: 7812
- name: split2
num_bytes: 82341305
num_examples: 7812
- name: split3
num_bytes: 84618555
num_examples: 7812
- name: split4
num_bytes: 82919894
num_examples: 7812
- name: split5
num_bytes: 81493985
num_examples: 7812
- name: split6
num_bytes: 79540694
num_examples: 7812
- name: split7
num_bytes: 79787451
num_examples: 7812
- name: split8
num_bytes: 86121846
num_examples: 7816
download_size: 300940911
dataset_size: 660173794
configs:
- config_name: default
data_files:
- split: split1
path: data/split1-*
- split: split2
path: data/split2-*
- split: split3
path: data/split3-*
- split: split4
path: data/split4-*
- split: split5
path: data/split5-*
- split: split6
path: data/split6-*
- split: split7
path: data/split7-*
- split: split8
path: data/split8-*
---
提供机构:
LightFury9
原始信息汇总
数据集概述
特征
- text: 数据类型为字符串。
- translit: 数据类型为字符串。
数据分割
- split1: 字节数为83350064,样本数为7812。
- split2: 字节数为82341305,样本数为7812。
- split3: 字节数为84618555,样本数为7812。
- split4: 字节数为82919894,样本数为7812。
- split5: 字节数为81493985,样本数为7812。
- split6: 字节数为79540694,样本数为7812。
- split7: 字节数为79787451,样本数为7812。
- split8: 字节数为86121846,样本数为7816。
数据大小
- 下载大小: 300940911字节。
- 数据集大小: 660173794字节。
配置
- default配置包含以下数据文件:
- split1: 路径为
data/split1-*。 - split2: 路径为
data/split2-*。 - split3: 路径为
data/split3-*。 - split4: 路径为
data/split4-*。 - split5: 路径为
data/split5-*。 - split6: 路径为
data/split6-*。 - split7: 路径为
data/split7-*。 - split8: 路径为
data/split8-*。
- split1: 路径为



