WikiQuality/all_methods_lo
收藏Hugging Face2024-06-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/WikiQuality/all_methods_lo
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: ha
features:
- name: id
dtype: string
- name: url
dtype: string
- name: title
dtype: string
- name: text
dtype: string
splits:
- name: train
num_bytes: 51164939.0773358
num_examples: 24402
- name: test
num_bytes: 2694326.1500850953
num_examples: 1285
download_size: 19353226
dataset_size: 53859265.2274209
- config_name: ig
features:
- name: id
dtype: string
- name: url
dtype: string
- name: title
dtype: string
- name: text
dtype: string
splits:
- name: train
num_bytes: 45177117.622507125
num_examples: 15859
- name: test
num_bytes: 2378642.613960114
num_examples: 835
download_size: 15543530
dataset_size: 47555760.23646724
- config_name: pcm
features:
- name: id
dtype: string
- name: url
dtype: string
- name: title
dtype: string
- name: text
dtype: string
splits:
- name: train
num_bytes: 1114399.6666666667
num_examples: 746
- name: test
num_bytes: 59753.333333333336
num_examples: 40
download_size: 502034
dataset_size: 1174153.0
- config_name: sw
features:
- name: id
dtype: string
- name: url
dtype: string
- name: title
dtype: string
- name: text
dtype: string
splits:
- name: train
num_bytes: 51524055.34712083
num_examples: 56590
- name: test
num_bytes: 2712319.506610231
num_examples: 2979
download_size: 17732585
dataset_size: 54236374.85373106
- config_name: yo
features:
- name: id
dtype: string
- name: url
dtype: string
- name: title
dtype: string
- name: text
dtype: string
splits:
- name: train
num_bytes: 3840848.8359063747
num_examples: 8150
- name: test
num_bytes: 202174.7424053785
num_examples: 429
download_size: 3464004
dataset_size: 4043023.5783117535
configs:
- config_name: ha
data_files:
- split: train
path: ha/train-*
- split: test
path: ha/test-*
- config_name: ig
data_files:
- split: train
path: ig/train-*
- split: test
path: ig/test-*
- config_name: pcm
data_files:
- split: train
path: pcm/train-*
- split: test
path: pcm/test-*
- config_name: sw
data_files:
- split: train
path: sw/train-*
- split: test
path: sw/test-*
- config_name: yo
data_files:
- split: train
path: yo/train-*
- split: test
path: yo/test-*
---
数据集信息:
- 配置名称:ha
特征字段:
- 名称:id,数据类型:字符串
- 名称:url,数据类型:字符串
- 名称:title,数据类型:字符串
- 名称:text,数据类型:字符串
数据划分:
- 名称:train,字节数:51164939.0773358,样本数量:24402
- 名称:test,字节数:2694326.1500850953,样本数量:1285
下载大小:19353226,数据集总大小:53859265.2274209
- 配置名称:ig
特征字段:
- 名称:id,数据类型:字符串
- 名称:url,数据类型:字符串
- 名称:title,数据类型:字符串
- 名称:text,数据类型:字符串
数据划分:
- 名称:train,字节数:45177117.622507125,样本数量:15859
- 名称:test,字节数:2378642.613960114,样本数量:835
下载大小:15543530,数据集总大小:47555760.23646724
- 配置名称:pcm
特征字段:
- 名称:id,数据类型:字符串
- 名称:url,数据类型:字符串
- 名称:title,数据类型:字符串
- 名称:text,数据类型:字符串
数据划分:
- 名称:train,字节数:1114399.6666666667,样本数量:746
- 名称:test,字节数:59753.333333333336,样本数量:40
下载大小:502034,数据集总大小:1174153.0
- 配置名称:sw
特征字段:
- 名称:id,数据类型:字符串
- 名称:url,数据类型:字符串
- 名称:title,数据类型:字符串
- 名称:text,数据类型:字符串
数据划分:
- 名称:train,字节数:51524055.34712083,样本数量:56590
- 名称:test,字节数:2712319.506610231,样本数量:2979
下载大小:17732585,数据集总大小:54236374.85373106
- 配置名称:yo
特征字段:
- 名称:id,数据类型:字符串
- 名称:url,数据类型:字符串
- 名称:title,数据类型:字符串
- 名称:text,数据类型:字符串
数据划分:
- 名称:train,字节数:3840848.8359063747,样本数量:8150
- 名称:test,字节数:202174.7424053785,样本数量:429
下载大小:3464004,数据集总大小:4043023.5783117535
配置列表:
- 配置名称:ha,数据文件:
- 划分:train,路径:ha/train-*
- 划分:test,路径:ha/test-*
- 配置名称:ig,数据文件:
- 划分:train,路径:ig/train-*
- 划分:test,路径:ig/test-*
- 配置名称:pcm,数据文件:
- 划分:train,路径:pcm/train-*
- 划分:test,路径:pcm/test-*
- 配置名称:sw,数据文件:
- 划分:train,路径:sw/train-*
- 划分:test,路径:sw/test-*
- 配置名称:yo,数据文件:
- 划分:train,路径:yo/train-*
- 划分:test,路径:yo/test-*
提供机构:
WikiQuality
原始信息汇总
数据集概述
配置名称:ha
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train:
- 字节数: 51164939.0773358
- 样本数: 24402
- test:
- 字节数: 2694326.1500850953
- 样本数: 1285
- train:
- 下载大小: 19353226
- 数据集大小: 53859265.2274209
配置名称:ig
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train:
- 字节数: 45177117.622507125
- 样本数: 15859
- test:
- 字节数: 2378642.613960114
- 样本数: 835
- train:
- 下载大小: 15543530
- 数据集大小: 47555760.23646724
配置名称:pcm
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train:
- 字节数: 1114399.6666666667
- 样本数: 746
- test:
- 字节数: 59753.333333333336
- 样本数: 40
- train:
- 下载大小: 502034
- 数据集大小: 1174153.0
配置名称:sw
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train:
- 字节数: 51524055.34712083
- 样本数: 56590
- test:
- 字节数: 2712319.506610231
- 样本数: 2979
- train:
- 下载大小: 17732585
- 数据集大小: 54236374.85373106
配置名称:yo
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train:
- 字节数: 3840848.8359063747
- 样本数: 8150
- test:
- 字节数: 202174.7424053785
- 样本数: 429
- train:
- 下载大小: 3464004
- 数据集大小: 4043023.5783117535



