lumasik/wiki-simple-cleaned
收藏Hugging Face2026-04-26 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/lumasik/wiki-simple-cleaned
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-generation
- fill-mask
language:
- en
tags:
- wikipedia
- cleaned
- pretraining
- simple-english
- nlp
- wiki
- simple
- clear
---
# Wiki-Simple-Cleaned
Этот датасет представляет собой глубоко очищенную версию **Simple English Wikipedia** (основано на `legacy-datasets/wikipedia`). Данные подготовлены специально для **претрейна (pre-training)** микро-моделей языковых архитектур.
## 🎯 Основная цель
Удаление "шума", специфичного для Wiki-дампов (служебные разделы, битая разметка, списки источников), чтобы модель фокусировалась на чистом языке и фактах, а не на изучении структуры веб-страниц.
## 🛠 Что было сделано (Pipeline очистки):
* **Удаление "хвостов":** Полностью отсечены разделы `References`, `See also`, `External links`, `Further reading` и `Sources`.
* **Заголовки:** Вики-заголовки (например, `== History ==`) преобразованы в обычные текстовые предложения с точкой для сохранения логики повествования.
* **Форматирование:** * Все переносы строк заменены на пробелы.
* Удалены множественные пробелы и пустые строки.
* Каждая статья упакована в одну строку.
* **Специальные токены:** Каждый документ обернут в токены начала и конца последовательности:
`<|bos|>{Title}. {Cleaned Text}<|eos|>`
## 📊 Статистика и структура
* **Формат:** Обычный текстовый файл (`.txt`), где одна строка — один документ.
* **Язык:** English (Simple), что идеально подходит для обучения моделей с небольшим количеством параметров (до 500M).
* **Распределение:**
* ~70% — короткие статьи (справки).
* ~27% — средние статьи.
* ~3% — объемные лонгриды.
## 🚀 Как использовать
Для эффективного обучения рекомендуется использовать **Sequence Packing** (склейку нескольких статей в одно контекстное окно), чтобы максимально загрузить VRAM вашей видеокарты.
```python
# Пример загрузки в PyTorch Dataset
with open("train.txt", "r", encoding="utf-8") as f:
data = f.readlines()
```
**Author:** [lumasik](https://huggingface.co/lumasik)
**Base Dataset:** [legacy-datasets/wikipedia](https://huggingface.co/datasets/legacy-datasets/wikipedia)
提供机构:
lumasik



