pszemraj/simple_wikipedia
收藏Hugging Face2023-09-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/simple_wikipedia
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为simple wikipedia,是从2023年9月1日的简单版维基百科中提取的。它主要用于文本生成和填充掩码任务,语言为英语,标签包括语言建模和2023年数据。数据集的大小类别在100K到1M之间。训练集包含约65M的令牌,通过特定的Python代码加载。此外,文件还提供了训练集的一些统计信息,包括数据框的结构和令牌长度的分布。
This dataset, named Simple Wikipedia, is extracted from the Simple English Wikipedia version dated September 1, 2023. It is primarily used for text generation and mask filling tasks, and the dataset is in English. Its tags include language modeling and 2023 data. The size category of this dataset ranges from 100K to 1M. The training set contains approximately 65M Tokens, which can be loaded via dedicated Python code. Additionally, the accompanying files provide several statistical metrics for the training set, including the dataframe structure and the distribution of token lengths.
提供机构:
pszemraj
原始信息汇总
数据集概述
基本信息
- 许可证:Apache 2.0
- 任务类别:文本生成、填充遮罩
- 语言:英语
- 标签:语言建模、语言、2023年数据
- 大小类别:100K<n<1M
数据来源
- 数据集名称:simple wikipedia
- 数据日期:2023年9月1日
- 训练数据大小:约65M个词元
数据统计
训练分割
-
数据结构:
- 类型:pandas DataFrame
- 索引范围:0 到 226241
- 列数:4
- 列信息:
- id:226242个非空值,类型:字符串
- url:226242个非空值,类型:字符串
- title:226242个非空值,类型:字符串
- text:226242个非空值,类型:字符串
-
词元长度统计:
- 计数:226242
- 平均值:287.007
- 标准差:1327.07
- 最小值:1
- 25%分位数:65
- 50%分位数:126
- 75%分位数:243
- 最大值:60844



