lumasik/wiki-simple-cleaned

Name: lumasik/wiki-simple-cleaned
Creator: lumasik
Published: 2026-04-26 22:03:09
License: 暂无描述

Hugging Face2026-04-26 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/lumasik/wiki-simple-cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - text-generation - fill-mask language: - en tags: - wikipedia - cleaned - pretraining - simple-english - nlp - wiki - simple - clear --- # Wiki-Simple-Cleaned Этот датасет представляет собой глубоко очищенную версию **Simple English Wikipedia** (основано на `legacy-datasets/wikipedia`). Данные подготовлены специально для **претрейна (pre-training)** микро-моделей языковых архитектур. ## 🎯 Основная цель Удаление "шума", специфичного для Wiki-дампов (служебные разделы, битая разметка, списки источников), чтобы модель фокусировалась на чистом языке и фактах, а не на изучении структуры веб-страниц. ## 🛠 Что было сделано (Pipeline очистки): * **Удаление "хвостов":** Полностью отсечены разделы `References`, `See also`, `External links`, `Further reading` и `Sources`. * **Заголовки:** Вики-заголовки (например, `== History ==`) преобразованы в обычные текстовые предложения с точкой для сохранения логики повествования. * **Форматирование:** * Все переносы строк заменены на пробелы. * Удалены множественные пробелы и пустые строки. * Каждая статья упакована в одну строку. * **Специальные токены:** Каждый документ обернут в токены начала и конца последовательности: `<|bos|>{Title}. {Cleaned Text}<|eos|>` ## 📊 Статистика и структура * **Формат:** Обычный текстовый файл (`.txt`), где одна строка — один документ. * **Язык:** English (Simple), что идеально подходит для обучения моделей с небольшим количеством параметров (до 500M). * **Распределение:** * ~70% — короткие статьи (справки). * ~27% — средние статьи. * ~3% — объемные лонгриды. ## 🚀 Как использовать Для эффективного обучения рекомендуется использовать **Sequence Packing** (склейку нескольких статей в одно контекстное окно), чтобы максимально загрузить VRAM вашей видеокарты. ```python # Пример загрузки в PyTorch Dataset with open("train.txt", "r", encoding="utf-8") as f: data = f.readlines() ``` **Author:** [lumasik](https://huggingface.co/lumasik) **Base Dataset:** [legacy-datasets/wikipedia](https://huggingface.co/datasets/legacy-datasets/wikipedia)

提供机构：

lumasik

5,000+

优质数据集

54 个

任务类型

进入经典数据集