five

SaeedRahmani/wiki

收藏
Hugging Face2024-01-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SaeedRahmani/wiki
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: text dtype: string splits: - name: train10k num_bytes: 92940 num_examples: 147 - name: test10k num_bytes: 1516 num_examples: 9 - name: train100k num_bytes: 839343 num_examples: 1296 - name: test100k num_bytes: 72238 num_examples: 147 - name: train1m num_bytes: 8442764 num_examples: 13362 - name: test1m num_bytes: 503384 num_examples: 841 - name: train10m num_bytes: 81612710 num_examples: 139790 - name: test10m num_bytes: 7074609 num_examples: 11712 - name: train100m num_bytes: 873632722 num_examples: 2204438 - name: test100m num_bytes: 40503894 num_examples: 117776 download_size: 429807825 dataset_size: 1012776120 configs: - config_name: default data_files: - split: train10k path: data/train10k-* - split: test10k path: data/test10k-* - split: train100k path: data/train100k-* - split: test100k path: data/test100k-* - split: train1m path: data/train1m-* - split: test1m path: data/test1m-* - split: train10m path: data/train10m-* - split: test10m path: data/test10m-* - split: train100m path: data/train100m-* - split: test100m path: data/test100m-* ---

数据集信息: 特征: - 名称:text 数据类型:字符串 数据拆分: - 名称:train10k 字节数:92940 样本数:147 - 名称:test10k 字节数:1516 样本数:9 - 名称:train100k 字节数:839343 样本数:1296 - 名称:test100k 字节数:72238 样本数:147 - 名称:train1m 字节数:8442764 样本数:13362 - 名称:test1m 字节数:503384 样本数:841 - 名称:train10m 字节数:81612710 样本数:139790 - 名称:test10m 字节数:7074609 样本数:11712 - 名称:train100m 字节数:873632722 样本数:2204438 - 名称:test100m 字节数:40503894 样本数:117776 下载大小:429807825 数据集大小:1012776120 配置: - 配置名称:default 数据文件: - 拆分:train10k 路径:data/train10k-* - 拆分:test10k 路径:data/test10k-* - 拆分:train100k 路径:data/train100k-* - 拆分:test100k 路径:data/test100k-* - 拆分:train1m 路径:data/train1m-* - 拆分:test1m 路径:data/test1m-* - 拆分:train10m 路径:data/train10m-* - 拆分:test10m 路径:data/test10m-* - 拆分:train100m 路径:data/train100m-* - 拆分:test100m 路径:data/test100m-*
提供机构:
SaeedRahmani
原始信息汇总

数据集概述

数据特征

  • 名称: text
  • 数据类型: string

数据分割

  • train10k
    • 字节数: 92940
    • 样本数: 147
  • test10k
    • 字节数: 1516
    • 样本数: 9
  • train100k
    • 字节数: 839343
    • 样本数: 1296
  • test100k
    • 字节数: 72238
    • 样本数: 147
  • train1m
    • 字节数: 8442764
    • 样本数: 13362
  • test1m
    • 字节数: 503384
    • 样本数: 841
  • train10m
    • 字节数: 81612710
    • 样本数: 139790
  • test10m
    • 字节数: 7074609
    • 样本数: 11712
  • train100m
    • 字节数: 873632722
    • 样本数: 2204438
  • test100m
    • 字节数: 40503894
    • 样本数: 117776

数据集大小

  • 下载大小: 429807825 字节
  • 数据集大小: 1012776120 字节

配置

  • 配置名称: default
    • 数据文件路径:
      • train10k: data/train10k-*
      • test10k: data/test10k-*
      • train100k: data/train100k-*
      • test100k: data/test100k-*
      • train1m: data/train1m-*
      • test1m: data/test1m-*
      • train10m: data/train10m-*
      • test10m: data/test10m-*
      • train100m: data/train100m-*
      • test100m: data/test100m-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作