atBuba/ruwiki-dataset
收藏Hugging Face2026-02-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/atBuba/ruwiki-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ru
license: cc-by-sa-4.0
task_categories:
- text-generation
- fill-mask
tags:
- wikipedia
- russian
- pretraining
- nlp
pretty_name: Russian Wikipedia Dataset
size_categories:
- 1M<n<10M
---
# Russian Wikipedia Dataset (РуВики)
Полный текстовый датасет русской Википедии, подготовленный для обучения языковых моделей.
## Описание
Датасет содержит извлечённый и очищенный текст всех статей русской Википедии.
Источник: официальные дампы [Wikimedia](https://dumps.wikimedia.org/ruwiki/latest/).
## Статистика
| Параметр | Значение |
|----------|----------|
| Статей | 1,855,155 |
| Слов | 642,078,669 |
| Размер (текст) | 4.34 ГБ |
| Язык | Русский |
| Лицензия | CC BY-SA 4.0 |
## Формат
- `ruwiki_full.txt` — полный датасет (все статьи)
- Статьи разделены токеном `<|endoftext|>`
## Использование
```python
from datasets import load_dataset
dataset = load_dataset("atBuba/ruwiki-dataset")
```
## Обработка
1. Скачивание дампа с dumps.wikimedia.org
2. Извлечение текста через wikiextractor (удаление вики-разметки, шаблонов)
3. Очистка: удаление HTML, URL, дедупликация
4. Фильтрация статей короче 100 символов
5. Случайное разделение train/val (seed=42)
## Лицензия
Контент Википедии распространяется под лицензией [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/).
---
语言:
- ru
授权协议:CC BY-SA 4.0
任务类别:
- 文本生成
- 掩码填充
标签:
- 维基百科
- 俄语
- 预训练
- 自然语言处理(NLP)
展示名称:俄语维基百科数据集
数据规模范围:
- 100万 < 样本数 < 1000万
---
# 俄语维基百科数据集(RuWiki)
本数据集为专为语言模型训练打造的完整俄语维基百科文本数据集。
## 数据集概述
本数据集包含从俄语维基百科中提取并清洗后的全部文章文本,数据源为维基媒体(Wikimedia)官方发布的[转储文件](https://dumps.wikimedia.org/ruwiki/latest/)。
## 统计信息
| 参数 | 数值 |
|--------------|----------------|
| 文章总数 | 1,855,155 |
| 总词数 | 642,078,669 |
| 文本总大小 | 4.34 GB |
| 语言 | 俄语 |
| 授权协议 | CC BY-SA 4.0 |
## 数据格式
- `ruwiki_full.txt`:完整数据集(包含所有文章)
- 文章间以`<|endoftext|>`分隔符区分
## 使用方法
python
from datasets import load_dataset
dataset = load_dataset("atBuba/ruwiki-dataset")
## 数据处理流程
1. 从dumps.wikimedia.org下载俄语维基百科转储文件
2. 通过wikiextractor提取文本内容(移除维基标记、模板)
3. 数据清洗:移除HTML标签、URL,并进行去重处理
4. 过滤掉长度不足100字符的文章
5. 以随机种子42划分训练集与验证集
## 授权协议
维基百科内容遵循[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/)授权协议。
提供机构:
atBuba



