pszemraj/simple_wikipedia

Name: pszemraj/simple_wikipedia
Creator: pszemraj
Published: 2023-09-09 14:54:54
License: 暂无描述

Hugging Face2023-09-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pszemraj/simple_wikipedia

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为simple wikipedia，是从2023年9月1日的简单版维基百科中提取的。它主要用于文本生成和填充掩码任务，语言为英语，标签包括语言建模和2023年数据。数据集的大小类别在100K到1M之间。训练集包含约65M的令牌，通过特定的Python代码加载。此外，文件还提供了训练集的一些统计信息，包括数据框的结构和令牌长度的分布。

This dataset, named Simple Wikipedia, is extracted from the Simple English Wikipedia version dated September 1, 2023. It is primarily used for text generation and mask filling tasks, and the dataset is in English. Its tags include language modeling and 2023 data. The size category of this dataset ranges from 100K to 1M. The training set contains approximately 65M Tokens, which can be loaded via dedicated Python code. Additionally, the accompanying files provide several statistical metrics for the training set, including the dataframe structure and the distribution of token lengths.

提供机构：

pszemraj

原始信息汇总

数据集概述

基本信息

许可证：Apache 2.0
任务类别：文本生成、填充遮罩
语言：英语
标签：语言建模、语言、2023年数据
大小类别：100K<n<1M

数据来源

数据集名称：simple wikipedia
数据日期：2023年9月1日
训练数据大小：约65M个词元

数据统计

训练分割

数据结构：
- 类型：pandas DataFrame
- 索引范围：0 到 226241
- 列数：4
- 列信息：
  - id：226242个非空值，类型：字符串
  - url：226242个非空值，类型：字符串
  - title：226242个非空值，类型：字符串
  - text：226242个非空值，类型：字符串
词元长度统计：
- 计数：226242
- 平均值：287.007
- 标准差：1327.07
- 最小值：1
- 25%分位数：65
- 50%分位数：126
- 75%分位数：243
- 最大值：60844

5,000+

优质数据集

54 个

任务类型

进入经典数据集