HydraLM/corpus_1_clustered_formatted
收藏Hugging Face2023-09-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HydraLM/corpus_1_clustered_formatted
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: '0'
path: data/0-*
- split: '1'
path: data/1-*
- split: '2'
path: data/2-*
- split: '3'
path: data/3-*
- split: '4'
path: data/4-*
- split: '5'
path: data/5-*
- split: '6'
path: data/6-*
- split: '7'
path: data/7-*
- split: '8'
path: data/8-*
- split: '9'
path: data/9-*
- split: '10'
path: data/10-*
- split: '11'
path: data/11-*
- split: '12'
path: data/12-*
- split: '13'
path: data/13-*
- split: '14'
path: data/14-*
- split: '15'
path: data/15-*
- split: '16'
path: data/16-*
- split: '17'
path: data/17-*
- split: '18'
path: data/18-*
- split: '19'
path: data/19-*
- split: '20'
path: data/20-*
- split: '21'
path: data/21-*
- split: '22'
path: data/22-*
- split: '23'
path: data/23-*
- split: '24'
path: data/24-*
- split: '25'
path: data/25-*
- split: '26'
path: data/26-*
- split: '27'
path: data/27-*
- split: '28'
path: data/28-*
- split: '29'
path: data/29-*
- split: '30'
path: data/30-*
- split: '31'
path: data/31-*
dataset_info:
features:
- name: input
dtype: string
- name: output
dtype: string
splits:
- name: '0'
num_bytes: 57988271
num_examples: 45617
- name: '1'
num_bytes: 80924315
num_examples: 57017
- name: '2'
num_bytes: 146972588
num_examples: 59271
- name: '3'
num_bytes: 55446301
num_examples: 41544
- name: '4'
num_bytes: 126072016
num_examples: 72587
- name: '5'
num_bytes: 60462897
num_examples: 34080
- name: '6'
num_bytes: 42695954
num_examples: 30203
- name: '7'
num_bytes: 86334809
num_examples: 36365
- name: '8'
num_bytes: 205182212
num_examples: 82654
- name: '9'
num_bytes: 65097365
num_examples: 34266
- name: '10'
num_bytes: 18143136
num_examples: 22221
- name: '11'
num_bytes: 85400025
num_examples: 43502
- name: '12'
num_bytes: 145547717
num_examples: 90729
- name: '13'
num_bytes: 68582287
num_examples: 77149
- name: '14'
num_bytes: 56976092
num_examples: 53042
- name: '15'
num_bytes: 86545425
num_examples: 49714
- name: '16'
num_bytes: 94867422
num_examples: 51517
- name: '17'
num_bytes: 59847974
num_examples: 39622
- name: '18'
num_bytes: 132858143
num_examples: 54708
- name: '19'
num_bytes: 32550229
num_examples: 21282
- name: '20'
num_bytes: 94382189
num_examples: 42830
- name: '21'
num_bytes: 112712389
num_examples: 41104
- name: '22'
num_bytes: 59089685
num_examples: 42586
- name: '23'
num_bytes: 90127682
num_examples: 35260
- name: '24'
num_bytes: 71313692
num_examples: 45451
- name: '25'
num_bytes: 131908904
num_examples: 55974
- name: '26'
num_bytes: 61742004
num_examples: 60773
- name: '27'
num_bytes: 22254025
num_examples: 29582
- name: '28'
num_bytes: 63023032
num_examples: 47177
- name: '29'
num_bytes: 36460715
num_examples: 32707
- name: '30'
num_bytes: 12331184
num_examples: 15399
- name: '31'
num_bytes: 26522434
num_examples: 26952
download_size: 1331217922
dataset_size: 2490363113
---
# Dataset Card for "corpus_1_clustered_formatted"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
HydraLM
原始信息汇总
数据集概述
数据集配置
- 配置名称: default
- 数据文件路径:
- 分割
0:data/0-* - 分割
1:data/1-* - 分割
2:data/2-* - 分割
3:data/3-* - 分割
4:data/4-* - 分割
5:data/5-* - 分割
6:data/6-* - 分割
7:data/7-* - 分割
8:data/8-* - 分割
9:data/9-* - 分割
10:data/10-* - 分割
11:data/11-* - 分割
12:data/12-* - 分割
13:data/13-* - 分割
14:data/14-* - 分割
15:data/15-* - 分割
16:data/16-* - 分割
17:data/17-* - 分割
18:data/18-* - 分割
19:data/19-* - 分割
20:data/20-* - 分割
21:data/21-* - 分割
22:data/22-* - 分割
23:data/23-* - 分割
24:data/24-* - 分割
25:data/25-* - 分割
26:data/26-* - 分割
27:data/27-* - 分割
28:data/28-* - 分割
29:data/29-* - 分割
30:data/30-* - 分割
31:data/31-*
- 分割
数据集信息
-
特征:
- 名称:
input- 数据类型:
string
- 数据类型:
- 名称:
output- 数据类型:
string
- 数据类型:
- 名称:
-
分割信息:
- 分割
0:- 字节数: 57988271
- 样本数: 45617
- 分割
1:- 字节数: 80924315
- 样本数: 57017
- 分割
2:- 字节数: 146972588
- 样本数: 59271
- 分割
3:- 字节数: 55446301
- 样本数: 41544
- 分割
4:- 字节数: 126072016
- 样本数: 72587
- 分割
5:- 字节数: 60462897
- 样本数: 34080
- 分割
6:- 字节数: 42695954
- 样本数: 30203
- 分割
7:- 字节数: 86334809
- 样本数: 36365
- 分割
8:- 字节数: 205182212
- 样本数: 82654
- 分割
9:- 字节数: 65097365
- 样本数: 34266
- 分割
10:- 字节数: 18143136
- 样本数: 22221
- 分割
11:- 字节数: 85400025
- 样本数: 43502
- 分割
12:- 字节数: 145547717
- 样本数: 90729
- 分割
13:- 字节数: 68582287
- 样本数: 77149
- 分割
14:- 字节数: 56976092
- 样本数: 53042
- 分割
15:- 字节数: 86545425
- 样本数: 49714
- 分割
16:- 字节数: 94867422
- 样本数: 51517
- 分割
17:- 字节数: 59847974
- 样本数: 39622
- 分割
18:- 字节数: 132858143
- 样本数: 54708
- 分割
19:- 字节数: 32550229
- 样本数: 21282
- 分割
20:- 字节数: 94382189
- 样本数: 42830
- 分割
21:- 字节数: 112712389
- 样本数: 41104
- 分割
22:- 字节数: 59089685
- 样本数: 42586
- 分割
23:- 字节数: 90127682
- 样本数: 35260
- 分割
24:- 字节数: 71313692
- 样本数: 45451
- 分割
25:- 字节数: 131908904
- 样本数: 55974
- 分割
26:- 字节数: 61742004
- 样本数: 60773
- 分割
27:- 字节数: 22254025
- 样本数: 29582
- 分割
28:- 字节数: 63023032
- 样本数: 47177
- 分割
29:- 字节数: 36460715
- 样本数: 32707
- 分割
30:- 字节数: 12331184
- 样本数: 15399
- 分割
31:- 字节数: 26522434
- 样本数: 26952
- 分割
-
下载大小: 1331217922 字节
-
数据集大小: 2490363113 字节



