five

HydraLM/SkunkData-Corpus-Clusters-001

收藏
Hugging Face2023-09-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HydraLM/SkunkData-Corpus-Clusters-001
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: config0 path: data/config0-* - split: config1 path: data/config1-* - split: config2 path: data/config2-* - split: config3 path: data/config3-* - split: config4 path: data/config4-* - split: config5 path: data/config5-* - split: config6 path: data/config6-* - split: config7 path: data/config7-* - split: config8 path: data/config8-* - split: config9 path: data/config9-* - split: config10 path: data/config10-* - split: config11 path: data/config11-* - split: config12 path: data/config12-* - split: config13 path: data/config13-* - split: config14 path: data/config14-* - split: config15 path: data/config15-* - split: config16 path: data/config16-* - split: config17 path: data/config17-* - split: config18 path: data/config18-* - split: config19 path: data/config19-* - split: config20 path: data/config20-* - split: config21 path: data/config21-* - split: config22 path: data/config22-* - split: config23 path: data/config23-* - split: config24 path: data/config24-* - split: config25 path: data/config25-* - split: config26 path: data/config26-* - split: config27 path: data/config27-* - split: config28 path: data/config28-* - split: config29 path: data/config29-* - split: config30 path: data/config30-* - split: config31 path: data/config31-* dataset_info: features: - name: message dtype: string - name: message_type dtype: string - name: message_id dtype: int64 - name: conversation_id dtype: int64 - name: dataset_id dtype: string - name: unique_conversation_id dtype: string - name: cluster dtype: float64 - name: __index_level_0__ dtype: int64 splits: - name: config0 num_bytes: 87924284 num_examples: 99425 - name: config1 num_bytes: 106611220 num_examples: 125333 - name: config2 num_bytes: 173980413 num_examples: 142226 - name: config3 num_bytes: 66985706 num_examples: 95365 - name: config4 num_bytes: 159352232 num_examples: 160680 - name: config5 num_bytes: 77667739 num_examples: 73168 - name: config6 num_bytes: 49793674 num_examples: 68399 - name: config7 num_bytes: 110741148 num_examples: 96048 - name: config8 num_bytes: 246980215 num_examples: 189712 - name: config9 num_bytes: 78705055 num_examples: 75952 - name: config10 num_bytes: 24590140 num_examples: 49477 - name: config11 num_bytes: 101881388 num_examples: 100613 - name: config12 num_bytes: 171141731 num_examples: 189285 - name: config13 num_bytes: 94659874 num_examples: 172001 - name: config14 num_bytes: 75441820 num_examples: 116020 - name: config15 num_bytes: 109459044 num_examples: 109363 - name: config16 num_bytes: 124294700 num_examples: 110020 - name: config17 num_bytes: 68624316 num_examples: 84195 - name: config18 num_bytes: 194234867 num_examples: 126148 - name: config19 num_bytes: 38810678 num_examples: 44274 - name: config20 num_bytes: 109428694 num_examples: 92432 - name: config21 num_bytes: 127536760 num_examples: 91186 - name: config22 num_bytes: 75102071 num_examples: 93171 - name: config23 num_bytes: 99290404 num_examples: 73458 - name: config24 num_bytes: 83858017 num_examples: 95037 - name: config25 num_bytes: 153137616 num_examples: 118558 - name: config26 num_bytes: 84263186 num_examples: 147431 - name: config27 num_bytes: 32127511 num_examples: 61803 - name: config28 num_bytes: 79484162 num_examples: 100282 - name: config29 num_bytes: 50017006 num_examples: 87382 - name: config30 num_bytes: 17400390 num_examples: 31757 - name: config31 num_bytes: 35728713 num_examples: 58432 download_size: 0 dataset_size: 3109254774 --- # Dataset Card for "SkunkData-Corpus-Clusters" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
HydraLM
原始信息汇总

数据集概述

数据集配置

  • 默认配置: default
  • 数据文件路径:
    • config0: data/config0-*
    • config1: data/config1-*
    • config2: data/config2-*
    • config3: data/config3-*
    • config4: data/config4-*
    • config5: data/config5-*
    • config6: data/config6-*
    • config7: data/config7-*
    • config8: data/config8-*
    • config9: data/config9-*
    • config10: data/config10-*
    • config11: data/config11-*
    • config12: data/config12-*
    • config13: data/config13-*
    • config14: data/config14-*
    • config15: data/config15-*
    • config16: data/config16-*
    • config17: data/config17-*
    • config18: data/config18-*
    • config19: data/config19-*
    • config20: data/config20-*
    • config21: data/config21-*
    • config22: data/config22-*
    • config23: data/config23-*
    • config24: data/config24-*
    • config25: data/config25-*
    • config26: data/config26-*
    • config27: data/config27-*
    • config28: data/config28-*
    • config29: data/config29-*
    • config30: data/config30-*
    • config31: data/config31-*

数据集信息

  • 特征:

    • message: 字符串类型
    • message_type: 字符串类型
    • message_id: 64位整数类型
    • conversation_id: 64位整数类型
    • dataset_id: 字符串类型
    • unique_conversation_id: 字符串类型
    • cluster: 64位浮点数类型
    • __index_level_0__: 64位整数类型
  • 分割:

    • config0: 字节数 87924284, 样本数 99425
    • config1: 字节数 106611220, 样本数 125333
    • config2: 字节数 173980413, 样本数 142226
    • config3: 字节数 66985706, 样本数 95365
    • config4: 字节数 159352232, 样本数 160680
    • config5: 字节数 77667739, 样本数 73168
    • config6: 字节数 49793674, 样本数 68399
    • config7: 字节数 110741148, 样本数 96048
    • config8: 字节数 246980215, 样本数 189712
    • config9: 字节数 78705055, 样本数 75952
    • config10: 字节数 24590140, 样本数 49477
    • config11: 字节数 101881388, 样本数 100613
    • config12: 字节数 171141731, 样本数 189285
    • config13: 字节数 94659874, 样本数 172001
    • config14: 字节数 75441820, 样本数 116020
    • config15: 字节数 109459044, 样本数 109363
    • config16: 字节数 124294700, 样本数 110020
    • config17: 字节数 68624316, 样本数 84195
    • config18: 字节数 194234867, 样本数 126148
    • config19: 字节数 38810678, 样本数 44274
    • config20: 字节数 109428694, 样本数 92432
    • config21: 字节数 127536760, 样本数 91186
    • config22: 字节数 75102071, 样本数 93171
    • config23: 字节数 99290404, 样本数 73458
    • config24: 字节数 83858017, 样本数 95037
    • config25: 字节数 153137616, 样本数 118558
    • config26: 字节数 84263186, 样本数 147431
    • config27: 字节数 32127511, 样本数 61803
    • config28: 字节数 79484162, 样本数 100282
    • config29: 字节数 50017006, 样本数 87382
    • config30: 字节数 17400390, 样本数 31757
    • config31: 字节数 35728713, 样本数 58432
  • 数据集大小:

    • 下载大小: 0 字节
    • 数据集大小: 3109254774 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作