wikipedia-small

Hugging Face2025-10-25 更新2025-10-26 收录

下载链接：

https://huggingface.co/datasets/frikishaan/wikipedia-small

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含4338页英文维基百科文本。总共有12,463,902个标记（约1200万个），78,511,499个字符（约7800万个），词汇表大小为414,815个（约40万个），有75个唯一字符。

This dataset consists of 4,338 pages of English Wikipedia text, with a total of 12,463,902 tokens (approximately 12 million), 78,511,499 characters (approximately 78 million), a vocabulary size of 414,815 (approximately 400,000), and 75 unique characters.

创建时间：

2025-10-24

原始信息汇总

数据集概述

基本信息

数据集名称: Wikipedia-small
许可证: MIT
语言: 英语
标签: 维基百科、英语、文本
规模分类: 1K<n<10K

数据内容

数据来源: 英语维基百科
页面数量: 4338个页面
文本统计:
- 总行数: 4338
- 总词元数: 12,463,902（1200万）
- 总字符数: 78,511,499（7800万）
- 唯一单词数: 414,815（40万）
- 唯一字符数: 75

数据结构

特征字段

title: 字符串类型（页面标题）
content: 字符串类型（页面内容）

数据划分

训练集:
- 样本数量: 3470
- 数据大小: 62,910,484字节
验证集:
- 样本数量: 868
- 数据大小: 15,736,686字节

技术规格

下载大小: 44,817,663字节
数据集总大小: 78,647,170字节
数据文件配置:
- 训练集路径: data/train-*
- 验证集路径: data/validation-*

搜集汇总

数据集介绍

构建方式

在知识库构建领域，wikipedia-small数据集通过系统性地提取英文维基百科平台中的结构化文本内容而形成。该数据集精选了涵盖多学科领域的4338个独立词条，采用标准化的数据清洗流程去除冗余符号与格式标记，最终构建为包含标题与正文的平行语料库。其训练集与验证集按4:1比例划分，确保了模型训练与评估的完整性。

特点

作为轻量级文本语料库的典型代表，该数据集呈现出显著的精简特性。其词汇表规模控制在41万余个独立词形，字符集仅涵盖75个基础单位，整体文本量约7800万字符。这种紧凑的数据结构既保留了自然语言的复杂性特征，又通过12万句级的token数量实现了计算资源与语言丰富度的平衡，特别适合轻量化语言模型的开发需求。

使用方法

针对自然语言处理任务的应用场景，该数据集可直接用于预训练语言模型的词向量学习。研究者可通过加载标准化的训练集与验证集文件，实施文本生成、语义理解等任务的基准测试。其清晰的字段划分允许快速构建(title, content)格式的监督学习样本，为知识增强型NLP模型提供高质量的英文语料支撑。

背景与挑战

背景概述

作为互联网时代最具影响力的知识库之一，维基百科自2001年创立以来持续为自然语言处理领域提供高质量文本资源。wikipedia-small数据集由研究机构基于英文维基百科条目构建，聚焦于知识密集型自然语言理解任务。该数据集通过精选3470条训练样本与868条验证样本，构建出包含1240万词汇规模的语料库，其核心价值在于为语言模型预训练、文本生成和知识检索等研究方向提供标准化数据支撑。这种经过优化的子集设计既保留了原始知识库的结构化特征，又显著降低了计算资源需求，对推动轻量级语言模型发展具有重要实践意义。

当前挑战

在知识表示学习领域，如何从非结构化文本中提取结构化知识始终是核心难题。wikipedia-small需解决维基百科文本特有的挑战：包括长文档语义连贯性保持、跨段落指代消解，以及专业术语与常识知识的平衡表示。数据集构建过程中面临多重技术障碍，包括原始数据的噪声过滤、文本格式标准化处理，以及如何在保持知识密度的同时控制数据规模。特别需要处理维基百科特有的模板语法、信息框数据和交叉引用链接，这些元素虽富含语义信息，但会显著增加文本清洗的复杂度。最终形成的语料库需在信息完整性与计算效率之间取得精准平衡。

常用场景

经典使用场景

在自然语言处理领域，wikipedia-small数据集作为高质量文本语料库，常被用于预训练语言模型。其精选的英文维基百科条目覆盖广泛主题，为模型提供了丰富的语义结构和知识表示基础，尤其适合中小规模模型的词汇嵌入和上下文理解能力开发。

衍生相关工作

该数据集启发了多项文本压缩与知识蒸馏研究，例如基于维基百科结构的层次化表示学习框架。相关成果进一步推动了领域自适应预训练技术的发展，促使研究者构建出兼顾效率与性能的混合训练范式，为低资源语言处理提供重要参考。

数据集最近研究