SaeedRahmani/wiki
收藏Hugging Face2024-01-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SaeedRahmani/wiki
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
splits:
- name: train10k
num_bytes: 92940
num_examples: 147
- name: test10k
num_bytes: 1516
num_examples: 9
- name: train100k
num_bytes: 839343
num_examples: 1296
- name: test100k
num_bytes: 72238
num_examples: 147
- name: train1m
num_bytes: 8442764
num_examples: 13362
- name: test1m
num_bytes: 503384
num_examples: 841
- name: train10m
num_bytes: 81612710
num_examples: 139790
- name: test10m
num_bytes: 7074609
num_examples: 11712
- name: train100m
num_bytes: 873632722
num_examples: 2204438
- name: test100m
num_bytes: 40503894
num_examples: 117776
download_size: 429807825
dataset_size: 1012776120
configs:
- config_name: default
data_files:
- split: train10k
path: data/train10k-*
- split: test10k
path: data/test10k-*
- split: train100k
path: data/train100k-*
- split: test100k
path: data/test100k-*
- split: train1m
path: data/train1m-*
- split: test1m
path: data/test1m-*
- split: train10m
path: data/train10m-*
- split: test10m
path: data/test10m-*
- split: train100m
path: data/train100m-*
- split: test100m
path: data/test100m-*
---
数据集信息:
特征:
- 名称:text
数据类型:字符串
数据拆分:
- 名称:train10k
字节数:92940
样本数:147
- 名称:test10k
字节数:1516
样本数:9
- 名称:train100k
字节数:839343
样本数:1296
- 名称:test100k
字节数:72238
样本数:147
- 名称:train1m
字节数:8442764
样本数:13362
- 名称:test1m
字节数:503384
样本数:841
- 名称:train10m
字节数:81612710
样本数:139790
- 名称:test10m
字节数:7074609
样本数:11712
- 名称:train100m
字节数:873632722
样本数:2204438
- 名称:test100m
字节数:40503894
样本数:117776
下载大小:429807825
数据集大小:1012776120
配置:
- 配置名称:default
数据文件:
- 拆分:train10k
路径:data/train10k-*
- 拆分:test10k
路径:data/test10k-*
- 拆分:train100k
路径:data/train100k-*
- 拆分:test100k
路径:data/test100k-*
- 拆分:train1m
路径:data/train1m-*
- 拆分:test1m
路径:data/test1m-*
- 拆分:train10m
路径:data/train10m-*
- 拆分:test10m
路径:data/test10m-*
- 拆分:train100m
路径:data/train100m-*
- 拆分:test100m
路径:data/test100m-*
提供机构:
SaeedRahmani
原始信息汇总
数据集概述
数据特征
- 名称: text
- 数据类型: string
数据分割
- train10k
- 字节数: 92940
- 样本数: 147
- test10k
- 字节数: 1516
- 样本数: 9
- train100k
- 字节数: 839343
- 样本数: 1296
- test100k
- 字节数: 72238
- 样本数: 147
- train1m
- 字节数: 8442764
- 样本数: 13362
- test1m
- 字节数: 503384
- 样本数: 841
- train10m
- 字节数: 81612710
- 样本数: 139790
- test10m
- 字节数: 7074609
- 样本数: 11712
- train100m
- 字节数: 873632722
- 样本数: 2204438
- test100m
- 字节数: 40503894
- 样本数: 117776
数据集大小
- 下载大小: 429807825 字节
- 数据集大小: 1012776120 字节
配置
- 配置名称: default
- 数据文件路径:
- train10k: data/train10k-*
- test10k: data/test10k-*
- train100k: data/train100k-*
- test100k: data/test100k-*
- train1m: data/train1m-*
- test1m: data/test1m-*
- train10m: data/train10m-*
- test10m: data/test10m-*
- train100m: data/train100m-*
- test100m: data/test100m-*
- 数据文件路径:



