five

HydraLM/corpus_1_clustered_formatted

收藏
Hugging Face2023-09-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HydraLM/corpus_1_clustered_formatted
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: '0' path: data/0-* - split: '1' path: data/1-* - split: '2' path: data/2-* - split: '3' path: data/3-* - split: '4' path: data/4-* - split: '5' path: data/5-* - split: '6' path: data/6-* - split: '7' path: data/7-* - split: '8' path: data/8-* - split: '9' path: data/9-* - split: '10' path: data/10-* - split: '11' path: data/11-* - split: '12' path: data/12-* - split: '13' path: data/13-* - split: '14' path: data/14-* - split: '15' path: data/15-* - split: '16' path: data/16-* - split: '17' path: data/17-* - split: '18' path: data/18-* - split: '19' path: data/19-* - split: '20' path: data/20-* - split: '21' path: data/21-* - split: '22' path: data/22-* - split: '23' path: data/23-* - split: '24' path: data/24-* - split: '25' path: data/25-* - split: '26' path: data/26-* - split: '27' path: data/27-* - split: '28' path: data/28-* - split: '29' path: data/29-* - split: '30' path: data/30-* - split: '31' path: data/31-* dataset_info: features: - name: input dtype: string - name: output dtype: string splits: - name: '0' num_bytes: 57988271 num_examples: 45617 - name: '1' num_bytes: 80924315 num_examples: 57017 - name: '2' num_bytes: 146972588 num_examples: 59271 - name: '3' num_bytes: 55446301 num_examples: 41544 - name: '4' num_bytes: 126072016 num_examples: 72587 - name: '5' num_bytes: 60462897 num_examples: 34080 - name: '6' num_bytes: 42695954 num_examples: 30203 - name: '7' num_bytes: 86334809 num_examples: 36365 - name: '8' num_bytes: 205182212 num_examples: 82654 - name: '9' num_bytes: 65097365 num_examples: 34266 - name: '10' num_bytes: 18143136 num_examples: 22221 - name: '11' num_bytes: 85400025 num_examples: 43502 - name: '12' num_bytes: 145547717 num_examples: 90729 - name: '13' num_bytes: 68582287 num_examples: 77149 - name: '14' num_bytes: 56976092 num_examples: 53042 - name: '15' num_bytes: 86545425 num_examples: 49714 - name: '16' num_bytes: 94867422 num_examples: 51517 - name: '17' num_bytes: 59847974 num_examples: 39622 - name: '18' num_bytes: 132858143 num_examples: 54708 - name: '19' num_bytes: 32550229 num_examples: 21282 - name: '20' num_bytes: 94382189 num_examples: 42830 - name: '21' num_bytes: 112712389 num_examples: 41104 - name: '22' num_bytes: 59089685 num_examples: 42586 - name: '23' num_bytes: 90127682 num_examples: 35260 - name: '24' num_bytes: 71313692 num_examples: 45451 - name: '25' num_bytes: 131908904 num_examples: 55974 - name: '26' num_bytes: 61742004 num_examples: 60773 - name: '27' num_bytes: 22254025 num_examples: 29582 - name: '28' num_bytes: 63023032 num_examples: 47177 - name: '29' num_bytes: 36460715 num_examples: 32707 - name: '30' num_bytes: 12331184 num_examples: 15399 - name: '31' num_bytes: 26522434 num_examples: 26952 download_size: 1331217922 dataset_size: 2490363113 --- # Dataset Card for "corpus_1_clustered_formatted" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
HydraLM
原始信息汇总

数据集概述

数据集配置

  • 配置名称: default
  • 数据文件路径:
    • 分割 0: data/0-*
    • 分割 1: data/1-*
    • 分割 2: data/2-*
    • 分割 3: data/3-*
    • 分割 4: data/4-*
    • 分割 5: data/5-*
    • 分割 6: data/6-*
    • 分割 7: data/7-*
    • 分割 8: data/8-*
    • 分割 9: data/9-*
    • 分割 10: data/10-*
    • 分割 11: data/11-*
    • 分割 12: data/12-*
    • 分割 13: data/13-*
    • 分割 14: data/14-*
    • 分割 15: data/15-*
    • 分割 16: data/16-*
    • 分割 17: data/17-*
    • 分割 18: data/18-*
    • 分割 19: data/19-*
    • 分割 20: data/20-*
    • 分割 21: data/21-*
    • 分割 22: data/22-*
    • 分割 23: data/23-*
    • 分割 24: data/24-*
    • 分割 25: data/25-*
    • 分割 26: data/26-*
    • 分割 27: data/27-*
    • 分割 28: data/28-*
    • 分割 29: data/29-*
    • 分割 30: data/30-*
    • 分割 31: data/31-*

数据集信息

  • 特征:

    • 名称: input
      • 数据类型: string
    • 名称: output
      • 数据类型: string
  • 分割信息:

    • 分割 0:
      • 字节数: 57988271
      • 样本数: 45617
    • 分割 1:
      • 字节数: 80924315
      • 样本数: 57017
    • 分割 2:
      • 字节数: 146972588
      • 样本数: 59271
    • 分割 3:
      • 字节数: 55446301
      • 样本数: 41544
    • 分割 4:
      • 字节数: 126072016
      • 样本数: 72587
    • 分割 5:
      • 字节数: 60462897
      • 样本数: 34080
    • 分割 6:
      • 字节数: 42695954
      • 样本数: 30203
    • 分割 7:
      • 字节数: 86334809
      • 样本数: 36365
    • 分割 8:
      • 字节数: 205182212
      • 样本数: 82654
    • 分割 9:
      • 字节数: 65097365
      • 样本数: 34266
    • 分割 10:
      • 字节数: 18143136
      • 样本数: 22221
    • 分割 11:
      • 字节数: 85400025
      • 样本数: 43502
    • 分割 12:
      • 字节数: 145547717
      • 样本数: 90729
    • 分割 13:
      • 字节数: 68582287
      • 样本数: 77149
    • 分割 14:
      • 字节数: 56976092
      • 样本数: 53042
    • 分割 15:
      • 字节数: 86545425
      • 样本数: 49714
    • 分割 16:
      • 字节数: 94867422
      • 样本数: 51517
    • 分割 17:
      • 字节数: 59847974
      • 样本数: 39622
    • 分割 18:
      • 字节数: 132858143
      • 样本数: 54708
    • 分割 19:
      • 字节数: 32550229
      • 样本数: 21282
    • 分割 20:
      • 字节数: 94382189
      • 样本数: 42830
    • 分割 21:
      • 字节数: 112712389
      • 样本数: 41104
    • 分割 22:
      • 字节数: 59089685
      • 样本数: 42586
    • 分割 23:
      • 字节数: 90127682
      • 样本数: 35260
    • 分割 24:
      • 字节数: 71313692
      • 样本数: 45451
    • 分割 25:
      • 字节数: 131908904
      • 样本数: 55974
    • 分割 26:
      • 字节数: 61742004
      • 样本数: 60773
    • 分割 27:
      • 字节数: 22254025
      • 样本数: 29582
    • 分割 28:
      • 字节数: 63023032
      • 样本数: 47177
    • 分割 29:
      • 字节数: 36460715
      • 样本数: 32707
    • 分割 30:
      • 字节数: 12331184
      • 样本数: 15399
    • 分割 31:
      • 字节数: 26522434
      • 样本数: 26952
  • 下载大小: 1331217922 字节

  • 数据集大小: 2490363113 字节

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作