jackboyla/fineweb_spacy
收藏Hugging Face2024-06-02 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/jackboyla/fineweb_spacy
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: tokens
sequence: string
- name: ents
sequence:
sequence: string
splits:
- name: CC_MAIN_2022_33
num_bytes: 79846730
num_examples: 23770
- name: train
num_bytes: 153209239
num_examples: 44998
- name: CC_MAIN_2024_10
num_bytes: 98267022
num_examples: 32901
- name: CC_MAIN_2020_16
num_bytes: 6891028
num_examples: 1998
download_size: 152485801
dataset_size: 338214019
configs:
- config_name: default
data_files:
- split: CC_MAIN_2022_33
path: data/CC_MAIN_2022_33-*
- split: train
path: data/train-*
- split: CC_MAIN_2024_10
path: data/CC_MAIN_2024_10-*
- split: CC_MAIN_2020_16
path: data/CC_MAIN_2020_16-*
---
提供机构:
jackboyla
原始信息汇总
数据集概述
特征信息
- 名称: text
- 数据类型: string
- 名称: tokens
- 序列类型: string
- 名称: ents
- 序列类型:
- 序列类型: string
- 序列类型:
数据分割
- 名称: CC_MAIN_2022_33
- 字节数: 79846730
- 样本数: 23770
- 名称: train
- 字节数: 153209239
- 样本数: 44998
- 名称: CC_MAIN_2024_10
- 字节数: 98267022
- 样本数: 32901
- 名称: CC_MAIN_2020_16
- 字节数: 6891028
- 样本数: 1998
数据集大小
- 下载大小: 152485801
- 数据集大小: 338214019
配置信息
- 配置名称: default
- 数据文件:
- 分割: CC_MAIN_2022_33
- 路径: data/CC_MAIN_2022_33-*
- 分割: train
- 路径: data/train-*
- 分割: CC_MAIN_2024_10
- 路径: data/CC_MAIN_2024_10-*
- 分割: CC_MAIN_2020_16
- 路径: data/CC_MAIN_2020_16-*
- 分割: CC_MAIN_2022_33
- 数据文件:



