five

afrizalha/wikipedia-Only-Indo-Articles-About-Indo

收藏
Hugging Face2024-06-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/afrizalha/wikipedia-Only-Indo-Articles-About-Indo
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从wikimedia/wikipedia处理而来的,仅包含包含不区分大小写的字符串Indonesia的条目。数据集分为未过滤和过滤两部分,未过滤部分包含157,259个条目,过滤部分包含63,209个条目。进一步的过滤去除了过短或过长的条目。数据集的特征包括id、url、title、text和word_count等字段。数据集的统计信息包括总字数、平均字数、字数标准差、中位数、数据集长度、最小字数和最大字数等。

This dataset is processed from wikimedia/wikipedia and only includes entries that contain the case-insensitive string Indonesia. The dataset is divided into two parts: unfiltered and filtered, with the unfiltered part containing 157,259 entries and the filtered part containing 63,209 entries. Additional filtering was done to remove entries that are either too short or too long. The features of the dataset include id, url, title, text, and word_count. The dataset statistics include total word count, mean word count, standard deviation of word count, median word count, dataset length, minimum word count, and maximum word count.
提供机构:
afrizalha
原始信息汇总

数据集概述

数据集特征

  • id: 字符串类型
  • url: 字符串类型
  • title: 字符串类型
  • text: 字符串类型
  • word_count: 整数类型(int64)

数据集分割

  • unfiltered:
    • 示例数量: 157,259
    • 字节数: 361,624,744
  • filtered:
    • 示例数量: 63,209
    • 字节数: 145,352,179.80208445

数据集大小

  • 下载大小: 267,272,223字节
  • 数据集总大小: 506,976,923.80208445字节

配置文件

  • config_name: default
  • data_files:
    • unfiltered: 路径为data/unfiltered-*
    • filtered: 路径为data/filtered-*

统计信息

  • All Split:
    • 总字数: 47,039,325
    • 平均字数: 299.12
    • 字数标准差: 717.74
    • 中位数字数: 98
    • 数据集长度: 157,259
    • 最小字数: 3
    • 最大字数: 95,967
  • Train Split:
    • 总字数: 18,104,407
    • 平均字数: 286.42
    • 字数标准差: 160.35
    • 中位数字数: 239
    • 数据集长度: 63,209
    • 最小字数: 98
    • 最大字数: 717
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作