five

WikiQuality/unique_character_trigrams_hi

收藏
Hugging Face2024-08-06 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/WikiQuality/unique_character_trigrams_hi
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置(ha、ig、pcm、sw、yo),每个配置都有id、url、title和text四个特征。数据集被分为训练集和测试集,每个配置的训练集和测试集的大小和样本数量都有详细说明。

The dataset contains multiple configurations (ha, ig, pcm, sw, yo), each with four features: id, url, title, and text. The dataset is divided into training and test sets, with detailed information on the size and number of samples for each configurations training and test sets.
提供机构:
WikiQuality
原始信息汇总

数据集概述

数据集配置

配置名称:ha

  • 特征
    • id: string
    • url: string
    • title: string
    • text: string
  • 分割
    • train:
      • 字节数: 7663628.076701186
      • 样本数: 3655
    • test:
      • 字节数: 404673.1104797069
      • 样本数: 193
  • 下载大小: 19156844
  • 数据集大小: 8068301.187180893

配置名称:ig

  • 特征
    • id: string
    • url: string
    • title: string
    • text: string
  • 分割
    • train:
      • 字节数: 8358008.897435897
      • 样本数: 2934
    • test:
      • 字节数: 441544.4373219373
      • 样本数: 155
  • 下载大小: 15268325
  • 数据集大小: 8799553.334757835

配置名称:pcm

  • 特征
    • id: string
    • url: string
    • title: string
    • text: string
  • 分割
    • train:
      • 字节数: 295779.0
      • 样本数: 198
    • test:
      • 字节数: 16432.166666666668
      • 样本数: 11
  • 下载大小: 526319
  • 数据集大小: 312211.1666666667

配置名称:sw

  • 特征
    • id: string
    • url: string
    • title: string
    • text: string
  • 分割
    • train:
      • 字节数: 5176988.490965348
      • 样本数: 5686
    • test:
      • 字节数: 273143.95836961037
      • 样本数: 300
  • 下载大小: 17788737
  • 数据集大小: 5450132.449334959

配置名称:yo

  • 特征
    • id: string
    • url: string
    • title: string
    • text: string
  • 分割
    • train:
      • 字节数: 353452.3468625498
      • 样本数: 750
    • test:
      • 字节数: 18850.79183266932
      • 样本数: 40
  • 下载大小: 2986488
  • 数据集大小: 372303.1386952191

数据文件路径

配置名称:ha

  • train: ha/train-*
  • test: ha/test-*

配置名称:ig

  • train: ig/train-*
  • test: ig/test-*

配置名称:pcm

  • train: pcm/train-*
  • test: pcm/test-*

配置名称:sw

  • train: sw/train-*
  • test: sw/test-*

配置名称:yo

  • train: yo/train-*
  • test: yo/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作