atBuba/ruwiki-dataset

Name: atBuba/ruwiki-dataset
Creator: atBuba
Published: 2026-02-28 03:35:53
License: 暂无描述

Hugging Face2026-02-28 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/atBuba/ruwiki-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - ru license: cc-by-sa-4.0 task_categories: - text-generation - fill-mask tags: - wikipedia - russian - pretraining - nlp pretty_name: Russian Wikipedia Dataset size_categories: - 1M<n<10M --- # Russian Wikipedia Dataset (РуВики) Полный текстовый датасет русской Википедии, подготовленный для обучения языковых моделей. ## Описание Датасет содержит извлечённый и очищенный текст всех статей русской Википедии. Источник: официальные дампы [Wikimedia](https://dumps.wikimedia.org/ruwiki/latest/). ## Статистика | Параметр | Значение | |----------|----------| | Статей | 1,855,155 | | Слов | 642,078,669 | | Размер (текст) | 4.34 ГБ | | Язык | Русский | | Лицензия | CC BY-SA 4.0 | ## Формат - `ruwiki_full.txt` — полный датасет (все статьи) - Статьи разделены токеном `<|endoftext|>` ## Использование ```python from datasets import load_dataset dataset = load_dataset("atBuba/ruwiki-dataset") ``` ## Обработка 1. Скачивание дампа с dumps.wikimedia.org 2. Извлечение текста через wikiextractor (удаление вики-разметки, шаблонов) 3. Очистка: удаление HTML, URL, дедупликация 4. Фильтрация статей короче 100 символов 5. Случайное разделение train/val (seed=42) ## Лицензия Контент Википедии распространяется под лицензией [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/).

--- 语言： - ru 授权协议：CC BY-SA 4.0 任务类别： - 文本生成 - 掩码填充标签： - 维基百科 - 俄语 - 预训练 - 自然语言处理（NLP）展示名称：俄语维基百科数据集数据规模范围： - 100万 < 样本数 < 1000万 --- # 俄语维基百科数据集（RuWiki）本数据集为专为语言模型训练打造的完整俄语维基百科文本数据集。 ## 数据集概述本数据集包含从俄语维基百科中提取并清洗后的全部文章文本，数据源为维基媒体（Wikimedia）官方发布的[转储文件](https://dumps.wikimedia.org/ruwiki/latest/)。 ## 统计信息 | 参数 | 数值 | |--------------|----------------| | 文章总数 | 1,855,155 | | 总词数 | 642,078,669 | | 文本总大小 | 4.34 GB | | 语言 | 俄语 | | 授权协议 | CC BY-SA 4.0 | ## 数据格式 - `ruwiki_full.txt`：完整数据集（包含所有文章） - 文章间以`<|endoftext|>`分隔符区分 ## 使用方法 python from datasets import load_dataset dataset = load_dataset("atBuba/ruwiki-dataset") ## 数据处理流程 1. 从dumps.wikimedia.org下载俄语维基百科转储文件 2. 通过wikiextractor提取文本内容（移除维基标记、模板） 3. 数据清洗：移除HTML标签、URL，并进行去重处理 4. 过滤掉长度不足100字符的文章 5. 以随机种子42划分训练集与验证集 ## 授权协议维基百科内容遵循[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/)授权协议。

提供机构：

atBuba

5,000+

优质数据集

54 个

任务类型

进入经典数据集