HydraLM/SkunkData-Corpus-Clusters-001
收藏Hugging Face2023-09-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HydraLM/SkunkData-Corpus-Clusters-001
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: config0
path: data/config0-*
- split: config1
path: data/config1-*
- split: config2
path: data/config2-*
- split: config3
path: data/config3-*
- split: config4
path: data/config4-*
- split: config5
path: data/config5-*
- split: config6
path: data/config6-*
- split: config7
path: data/config7-*
- split: config8
path: data/config8-*
- split: config9
path: data/config9-*
- split: config10
path: data/config10-*
- split: config11
path: data/config11-*
- split: config12
path: data/config12-*
- split: config13
path: data/config13-*
- split: config14
path: data/config14-*
- split: config15
path: data/config15-*
- split: config16
path: data/config16-*
- split: config17
path: data/config17-*
- split: config18
path: data/config18-*
- split: config19
path: data/config19-*
- split: config20
path: data/config20-*
- split: config21
path: data/config21-*
- split: config22
path: data/config22-*
- split: config23
path: data/config23-*
- split: config24
path: data/config24-*
- split: config25
path: data/config25-*
- split: config26
path: data/config26-*
- split: config27
path: data/config27-*
- split: config28
path: data/config28-*
- split: config29
path: data/config29-*
- split: config30
path: data/config30-*
- split: config31
path: data/config31-*
dataset_info:
features:
- name: message
dtype: string
- name: message_type
dtype: string
- name: message_id
dtype: int64
- name: conversation_id
dtype: int64
- name: dataset_id
dtype: string
- name: unique_conversation_id
dtype: string
- name: cluster
dtype: float64
- name: __index_level_0__
dtype: int64
splits:
- name: config0
num_bytes: 87924284
num_examples: 99425
- name: config1
num_bytes: 106611220
num_examples: 125333
- name: config2
num_bytes: 173980413
num_examples: 142226
- name: config3
num_bytes: 66985706
num_examples: 95365
- name: config4
num_bytes: 159352232
num_examples: 160680
- name: config5
num_bytes: 77667739
num_examples: 73168
- name: config6
num_bytes: 49793674
num_examples: 68399
- name: config7
num_bytes: 110741148
num_examples: 96048
- name: config8
num_bytes: 246980215
num_examples: 189712
- name: config9
num_bytes: 78705055
num_examples: 75952
- name: config10
num_bytes: 24590140
num_examples: 49477
- name: config11
num_bytes: 101881388
num_examples: 100613
- name: config12
num_bytes: 171141731
num_examples: 189285
- name: config13
num_bytes: 94659874
num_examples: 172001
- name: config14
num_bytes: 75441820
num_examples: 116020
- name: config15
num_bytes: 109459044
num_examples: 109363
- name: config16
num_bytes: 124294700
num_examples: 110020
- name: config17
num_bytes: 68624316
num_examples: 84195
- name: config18
num_bytes: 194234867
num_examples: 126148
- name: config19
num_bytes: 38810678
num_examples: 44274
- name: config20
num_bytes: 109428694
num_examples: 92432
- name: config21
num_bytes: 127536760
num_examples: 91186
- name: config22
num_bytes: 75102071
num_examples: 93171
- name: config23
num_bytes: 99290404
num_examples: 73458
- name: config24
num_bytes: 83858017
num_examples: 95037
- name: config25
num_bytes: 153137616
num_examples: 118558
- name: config26
num_bytes: 84263186
num_examples: 147431
- name: config27
num_bytes: 32127511
num_examples: 61803
- name: config28
num_bytes: 79484162
num_examples: 100282
- name: config29
num_bytes: 50017006
num_examples: 87382
- name: config30
num_bytes: 17400390
num_examples: 31757
- name: config31
num_bytes: 35728713
num_examples: 58432
download_size: 0
dataset_size: 3109254774
---
# Dataset Card for "SkunkData-Corpus-Clusters"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
HydraLM
原始信息汇总
数据集概述
数据集配置
- 默认配置:
default - 数据文件路径:
config0:data/config0-*config1:data/config1-*config2:data/config2-*config3:data/config3-*config4:data/config4-*config5:data/config5-*config6:data/config6-*config7:data/config7-*config8:data/config8-*config9:data/config9-*config10:data/config10-*config11:data/config11-*config12:data/config12-*config13:data/config13-*config14:data/config14-*config15:data/config15-*config16:data/config16-*config17:data/config17-*config18:data/config18-*config19:data/config19-*config20:data/config20-*config21:data/config21-*config22:data/config22-*config23:data/config23-*config24:data/config24-*config25:data/config25-*config26:data/config26-*config27:data/config27-*config28:data/config28-*config29:data/config29-*config30:data/config30-*config31:data/config31-*
数据集信息
-
特征:
message: 字符串类型message_type: 字符串类型message_id: 64位整数类型conversation_id: 64位整数类型dataset_id: 字符串类型unique_conversation_id: 字符串类型cluster: 64位浮点数类型__index_level_0__: 64位整数类型
-
分割:
config0: 字节数 87924284, 样本数 99425config1: 字节数 106611220, 样本数 125333config2: 字节数 173980413, 样本数 142226config3: 字节数 66985706, 样本数 95365config4: 字节数 159352232, 样本数 160680config5: 字节数 77667739, 样本数 73168config6: 字节数 49793674, 样本数 68399config7: 字节数 110741148, 样本数 96048config8: 字节数 246980215, 样本数 189712config9: 字节数 78705055, 样本数 75952config10: 字节数 24590140, 样本数 49477config11: 字节数 101881388, 样本数 100613config12: 字节数 171141731, 样本数 189285config13: 字节数 94659874, 样本数 172001config14: 字节数 75441820, 样本数 116020config15: 字节数 109459044, 样本数 109363config16: 字节数 124294700, 样本数 110020config17: 字节数 68624316, 样本数 84195config18: 字节数 194234867, 样本数 126148config19: 字节数 38810678, 样本数 44274config20: 字节数 109428694, 样本数 92432config21: 字节数 127536760, 样本数 91186config22: 字节数 75102071, 样本数 93171config23: 字节数 99290404, 样本数 73458config24: 字节数 83858017, 样本数 95037config25: 字节数 153137616, 样本数 118558config26: 字节数 84263186, 样本数 147431config27: 字节数 32127511, 样本数 61803config28: 字节数 79484162, 样本数 100282config29: 字节数 50017006, 样本数 87382config30: 字节数 17400390, 样本数 31757config31: 字节数 35728713, 样本数 58432
-
数据集大小:
- 下载大小: 0 字节
- 数据集大小: 3109254774 字节



