five

WikiQuality/all_methods_lo

收藏
Hugging Face2024-06-15 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/WikiQuality/all_methods_lo
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: ha features: - name: id dtype: string - name: url dtype: string - name: title dtype: string - name: text dtype: string splits: - name: train num_bytes: 51164939.0773358 num_examples: 24402 - name: test num_bytes: 2694326.1500850953 num_examples: 1285 download_size: 19353226 dataset_size: 53859265.2274209 - config_name: ig features: - name: id dtype: string - name: url dtype: string - name: title dtype: string - name: text dtype: string splits: - name: train num_bytes: 45177117.622507125 num_examples: 15859 - name: test num_bytes: 2378642.613960114 num_examples: 835 download_size: 15543530 dataset_size: 47555760.23646724 - config_name: pcm features: - name: id dtype: string - name: url dtype: string - name: title dtype: string - name: text dtype: string splits: - name: train num_bytes: 1114399.6666666667 num_examples: 746 - name: test num_bytes: 59753.333333333336 num_examples: 40 download_size: 502034 dataset_size: 1174153.0 - config_name: sw features: - name: id dtype: string - name: url dtype: string - name: title dtype: string - name: text dtype: string splits: - name: train num_bytes: 51524055.34712083 num_examples: 56590 - name: test num_bytes: 2712319.506610231 num_examples: 2979 download_size: 17732585 dataset_size: 54236374.85373106 - config_name: yo features: - name: id dtype: string - name: url dtype: string - name: title dtype: string - name: text dtype: string splits: - name: train num_bytes: 3840848.8359063747 num_examples: 8150 - name: test num_bytes: 202174.7424053785 num_examples: 429 download_size: 3464004 dataset_size: 4043023.5783117535 configs: - config_name: ha data_files: - split: train path: ha/train-* - split: test path: ha/test-* - config_name: ig data_files: - split: train path: ig/train-* - split: test path: ig/test-* - config_name: pcm data_files: - split: train path: pcm/train-* - split: test path: pcm/test-* - config_name: sw data_files: - split: train path: sw/train-* - split: test path: sw/test-* - config_name: yo data_files: - split: train path: yo/train-* - split: test path: yo/test-* ---

数据集信息: - 配置名称:ha 特征字段: - 名称:id,数据类型:字符串 - 名称:url,数据类型:字符串 - 名称:title,数据类型:字符串 - 名称:text,数据类型:字符串 数据划分: - 名称:train,字节数:51164939.0773358,样本数量:24402 - 名称:test,字节数:2694326.1500850953,样本数量:1285 下载大小:19353226,数据集总大小:53859265.2274209 - 配置名称:ig 特征字段: - 名称:id,数据类型:字符串 - 名称:url,数据类型:字符串 - 名称:title,数据类型:字符串 - 名称:text,数据类型:字符串 数据划分: - 名称:train,字节数:45177117.622507125,样本数量:15859 - 名称:test,字节数:2378642.613960114,样本数量:835 下载大小:15543530,数据集总大小:47555760.23646724 - 配置名称:pcm 特征字段: - 名称:id,数据类型:字符串 - 名称:url,数据类型:字符串 - 名称:title,数据类型:字符串 - 名称:text,数据类型:字符串 数据划分: - 名称:train,字节数:1114399.6666666667,样本数量:746 - 名称:test,字节数:59753.333333333336,样本数量:40 下载大小:502034,数据集总大小:1174153.0 - 配置名称:sw 特征字段: - 名称:id,数据类型:字符串 - 名称:url,数据类型:字符串 - 名称:title,数据类型:字符串 - 名称:text,数据类型:字符串 数据划分: - 名称:train,字节数:51524055.34712083,样本数量:56590 - 名称:test,字节数:2712319.506610231,样本数量:2979 下载大小:17732585,数据集总大小:54236374.85373106 - 配置名称:yo 特征字段: - 名称:id,数据类型:字符串 - 名称:url,数据类型:字符串 - 名称:title,数据类型:字符串 - 名称:text,数据类型:字符串 数据划分: - 名称:train,字节数:3840848.8359063747,样本数量:8150 - 名称:test,字节数:202174.7424053785,样本数量:429 下载大小:3464004,数据集总大小:4043023.5783117535 配置列表: - 配置名称:ha,数据文件: - 划分:train,路径:ha/train-* - 划分:test,路径:ha/test-* - 配置名称:ig,数据文件: - 划分:train,路径:ig/train-* - 划分:test,路径:ig/test-* - 配置名称:pcm,数据文件: - 划分:train,路径:pcm/train-* - 划分:test,路径:pcm/test-* - 配置名称:sw,数据文件: - 划分:train,路径:sw/train-* - 划分:test,路径:sw/test-* - 配置名称:yo,数据文件: - 划分:train,路径:yo/train-* - 划分:test,路径:yo/test-*
提供机构:
WikiQuality
原始信息汇总

数据集概述

配置名称:ha

  • 特征:
    • id: string
    • url: string
    • title: string
    • text: string
  • 分割:
    • train:
      • 字节数: 51164939.0773358
      • 样本数: 24402
    • test:
      • 字节数: 2694326.1500850953
      • 样本数: 1285
  • 下载大小: 19353226
  • 数据集大小: 53859265.2274209

配置名称:ig

  • 特征:
    • id: string
    • url: string
    • title: string
    • text: string
  • 分割:
    • train:
      • 字节数: 45177117.622507125
      • 样本数: 15859
    • test:
      • 字节数: 2378642.613960114
      • 样本数: 835
  • 下载大小: 15543530
  • 数据集大小: 47555760.23646724

配置名称:pcm

  • 特征:
    • id: string
    • url: string
    • title: string
    • text: string
  • 分割:
    • train:
      • 字节数: 1114399.6666666667
      • 样本数: 746
    • test:
      • 字节数: 59753.333333333336
      • 样本数: 40
  • 下载大小: 502034
  • 数据集大小: 1174153.0

配置名称:sw

  • 特征:
    • id: string
    • url: string
    • title: string
    • text: string
  • 分割:
    • train:
      • 字节数: 51524055.34712083
      • 样本数: 56590
    • test:
      • 字节数: 2712319.506610231
      • 样本数: 2979
  • 下载大小: 17732585
  • 数据集大小: 54236374.85373106

配置名称:yo

  • 特征:
    • id: string
    • url: string
    • title: string
    • text: string
  • 分割:
    • train:
      • 字节数: 3840848.8359063747
      • 样本数: 8150
    • test:
      • 字节数: 202174.7424053785
      • 样本数: 429
  • 下载大小: 3464004
  • 数据集大小: 4043023.5783117535
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作