LightFury9/CulturaX_500ksamples_8splits_te
收藏Hugging Face2023-12-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LightFury9/CulturaX_500ksamples_8splits_te
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: timestamp
dtype: string
- name: url
dtype: string
- name: source
dtype: string
splits:
- name: split1
num_bytes: 470085184.10578954
num_examples: 62500
- name: split2
num_bytes: 470085184.10578954
num_examples: 62500
- name: split3
num_bytes: 470085184.10578954
num_examples: 62500
- name: split4
num_bytes: 470085184.10578954
num_examples: 62500
- name: split5
num_bytes: 470085184.10578954
num_examples: 62500
- name: split6
num_bytes: 470085184.10578954
num_examples: 62500
- name: split7
num_bytes: 470085184.10578954
num_examples: 62500
- name: split8
num_bytes: 470085184.10578954
num_examples: 62500
download_size: 1474381710
dataset_size: 3760681472.846317
configs:
- config_name: default
data_files:
- split: split1
path: data/split1-*
- split: split2
path: data/split2-*
- split: split3
path: data/split3-*
- split: split4
path: data/split4-*
- split: split5
path: data/split5-*
- split: split6
path: data/split6-*
- split: split7
path: data/split7-*
- split: split8
path: data/split8-*
---
提供机构:
LightFury9
原始信息汇总
数据集概述
数据集特征
- text: 数据类型为字符串。
- timestamp: 数据类型为字符串。
- url: 数据类型为字符串。
- source: 数据类型为字符串。
数据集分割
- split1: 包含62500个样本,大小为470085184.10578954字节。
- split2: 包含62500个样本,大小为470085184.10578954字节。
- split3: 包含62500个样本,大小为470085184.10578954字节。
- split4: 包含62500个样本,大小为470085184.10578954字节。
- split5: 包含62500个样本,大小为470085184.10578954字节。
- split6: 包含62500个样本,大小为470085184.10578954字节。
- split7: 包含62500个样本,大小为470085184.10578954字节。
- split8: 包含62500个样本,大小为470085184.10578954字节。
数据集大小
- 下载大小: 1474381710字节。
- 数据集大小: 3760681472.846317字节。
配置
- default:
- split1: 路径为
data/split1-*。 - split2: 路径为
data/split2-*。 - split3: 路径为
data/split3-*。 - split4: 路径为
data/split4-*。 - split5: 路径为
data/split5-*。 - split6: 路径为
data/split6-*。 - split7: 路径为
data/split7-*。 - split8: 路径为
data/split8-*。
- split1: 路径为



