five

atBuba/ruwiki-dataset

收藏
Hugging Face2026-02-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/atBuba/ruwiki-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ru license: cc-by-sa-4.0 task_categories: - text-generation - fill-mask tags: - wikipedia - russian - pretraining - nlp pretty_name: Russian Wikipedia Dataset size_categories: - 1M<n<10M --- # Russian Wikipedia Dataset (РуВики) Полный текстовый датасет русской Википедии, подготовленный для обучения языковых моделей. ## Описание Датасет содержит извлечённый и очищенный текст всех статей русской Википедии. Источник: официальные дампы [Wikimedia](https://dumps.wikimedia.org/ruwiki/latest/). ## Статистика | Параметр | Значение | |----------|----------| | Статей | 1,855,155 | | Слов | 642,078,669 | | Размер (текст) | 4.34 ГБ | | Язык | Русский | | Лицензия | CC BY-SA 4.0 | ## Формат - `ruwiki_full.txt` — полный датасет (все статьи) - Статьи разделены токеном `<|endoftext|>` ## Использование ```python from datasets import load_dataset dataset = load_dataset("atBuba/ruwiki-dataset") ``` ## Обработка 1. Скачивание дампа с dumps.wikimedia.org 2. Извлечение текста через wikiextractor (удаление вики-разметки, шаблонов) 3. Очистка: удаление HTML, URL, дедупликация 4. Фильтрация статей короче 100 символов 5. Случайное разделение train/val (seed=42) ## Лицензия Контент Википедии распространяется под лицензией [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/).

--- 语言: - ru 授权协议:CC BY-SA 4.0 任务类别: - 文本生成 - 掩码填充 标签: - 维基百科 - 俄语 - 预训练 - 自然语言处理(NLP) 展示名称:俄语维基百科数据集 数据规模范围: - 100万 < 样本数 < 1000万 --- # 俄语维基百科数据集(RuWiki) 本数据集为专为语言模型训练打造的完整俄语维基百科文本数据集。 ## 数据集概述 本数据集包含从俄语维基百科中提取并清洗后的全部文章文本,数据源为维基媒体(Wikimedia)官方发布的[转储文件](https://dumps.wikimedia.org/ruwiki/latest/)。 ## 统计信息 | 参数 | 数值 | |--------------|----------------| | 文章总数 | 1,855,155 | | 总词数 | 642,078,669 | | 文本总大小 | 4.34 GB | | 语言 | 俄语 | | 授权协议 | CC BY-SA 4.0 | ## 数据格式 - `ruwiki_full.txt`:完整数据集(包含所有文章) - 文章间以`<|endoftext|>`分隔符区分 ## 使用方法 python from datasets import load_dataset dataset = load_dataset("atBuba/ruwiki-dataset") ## 数据处理流程 1. 从dumps.wikimedia.org下载俄语维基百科转储文件 2. 通过wikiextractor提取文本内容(移除维基标记、模板) 3. 数据清洗:移除HTML标签、URL,并进行去重处理 4. 过滤掉长度不足100字符的文章 5. 以随机种子42划分训练集与验证集 ## 授权协议 维基百科内容遵循[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/)授权协议。
提供机构:
atBuba
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作