WikiQuality/unique_character_trigrams_hi
收藏Hugging Face2024-08-06 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/WikiQuality/unique_character_trigrams_hi
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置(ha、ig、pcm、sw、yo),每个配置都有id、url、title和text四个特征。数据集被分为训练集和测试集,每个配置的训练集和测试集的大小和样本数量都有详细说明。
The dataset contains multiple configurations (ha, ig, pcm, sw, yo), each with four features: id, url, title, and text. The dataset is divided into training and test sets, with detailed information on the size and number of samples for each configurations training and test sets.
提供机构:
WikiQuality
原始信息汇总
数据集概述
数据集配置
配置名称:ha
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train:
- 字节数: 7663628.076701186
- 样本数: 3655
- test:
- 字节数: 404673.1104797069
- 样本数: 193
- train:
- 下载大小: 19156844
- 数据集大小: 8068301.187180893
配置名称:ig
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train:
- 字节数: 8358008.897435897
- 样本数: 2934
- test:
- 字节数: 441544.4373219373
- 样本数: 155
- train:
- 下载大小: 15268325
- 数据集大小: 8799553.334757835
配置名称:pcm
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train:
- 字节数: 295779.0
- 样本数: 198
- test:
- 字节数: 16432.166666666668
- 样本数: 11
- train:
- 下载大小: 526319
- 数据集大小: 312211.1666666667
配置名称:sw
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train:
- 字节数: 5176988.490965348
- 样本数: 5686
- test:
- 字节数: 273143.95836961037
- 样本数: 300
- train:
- 下载大小: 17788737
- 数据集大小: 5450132.449334959
配置名称:yo
- 特征:
- id: string
- url: string
- title: string
- text: string
- 分割:
- train:
- 字节数: 353452.3468625498
- 样本数: 750
- test:
- 字节数: 18850.79183266932
- 样本数: 40
- train:
- 下载大小: 2986488
- 数据集大小: 372303.1386952191
数据文件路径
配置名称:ha
- train: ha/train-*
- test: ha/test-*
配置名称:ig
- train: ig/train-*
- test: ig/test-*
配置名称:pcm
- train: pcm/train-*
- test: pcm/test-*
配置名称:sw
- train: sw/train-*
- test: sw/test-*
配置名称:yo
- train: yo/train-*
- test: yo/test-*



