afrizalha/wikipedia-Only-Indo-Articles-About-Indo
收藏Hugging Face2024-06-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/afrizalha/wikipedia-Only-Indo-Articles-About-Indo
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从wikimedia/wikipedia处理而来的,仅包含包含不区分大小写的字符串Indonesia的条目。数据集分为未过滤和过滤两部分,未过滤部分包含157,259个条目,过滤部分包含63,209个条目。进一步的过滤去除了过短或过长的条目。数据集的特征包括id、url、title、text和word_count等字段。数据集的统计信息包括总字数、平均字数、字数标准差、中位数、数据集长度、最小字数和最大字数等。
This dataset is processed from wikimedia/wikipedia and only includes entries that contain the case-insensitive string Indonesia. The dataset is divided into two parts: unfiltered and filtered, with the unfiltered part containing 157,259 entries and the filtered part containing 63,209 entries. Additional filtering was done to remove entries that are either too short or too long. The features of the dataset include id, url, title, text, and word_count. The dataset statistics include total word count, mean word count, standard deviation of word count, median word count, dataset length, minimum word count, and maximum word count.
提供机构:
afrizalha
原始信息汇总
数据集概述
数据集特征
- id: 字符串类型
- url: 字符串类型
- title: 字符串类型
- text: 字符串类型
- word_count: 整数类型(int64)
数据集分割
- unfiltered:
- 示例数量: 157,259
- 字节数: 361,624,744
- filtered:
- 示例数量: 63,209
- 字节数: 145,352,179.80208445
数据集大小
- 下载大小: 267,272,223字节
- 数据集总大小: 506,976,923.80208445字节
配置文件
- config_name: default
- data_files:
- unfiltered: 路径为
data/unfiltered-* - filtered: 路径为
data/filtered-*
- unfiltered: 路径为
统计信息
- All Split:
- 总字数: 47,039,325
- 平均字数: 299.12
- 字数标准差: 717.74
- 中位数字数: 98
- 数据集长度: 157,259
- 最小字数: 3
- 最大字数: 95,967
- Train Split:
- 总字数: 18,104,407
- 平均字数: 286.42
- 字数标准差: 160.35
- 中位数字数: 239
- 数据集长度: 63,209
- 最小字数: 98
- 最大字数: 717



