five

lumasik/wiki-simple-cleaned

收藏
Hugging Face2026-04-26 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/lumasik/wiki-simple-cleaned
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - text-generation - fill-mask language: - en tags: - wikipedia - cleaned - pretraining - simple-english - nlp - wiki - simple - clear --- # Wiki-Simple-Cleaned Этот датасет представляет собой глубоко очищенную версию **Simple English Wikipedia** (основано на `legacy-datasets/wikipedia`). Данные подготовлены специально для **претрейна (pre-training)** микро-моделей языковых архитектур. ## 🎯 Основная цель Удаление "шума", специфичного для Wiki-дампов (служебные разделы, битая разметка, списки источников), чтобы модель фокусировалась на чистом языке и фактах, а не на изучении структуры веб-страниц. ## 🛠 Что было сделано (Pipeline очистки): * **Удаление "хвостов":** Полностью отсечены разделы `References`, `See also`, `External links`, `Further reading` и `Sources`. * **Заголовки:** Вики-заголовки (например, `== History ==`) преобразованы в обычные текстовые предложения с точкой для сохранения логики повествования. * **Форматирование:** * Все переносы строк заменены на пробелы. * Удалены множественные пробелы и пустые строки. * Каждая статья упакована в одну строку. * **Специальные токены:** Каждый документ обернут в токены начала и конца последовательности: `<|bos|>{Title}. {Cleaned Text}<|eos|>` ## 📊 Статистика и структура * **Формат:** Обычный текстовый файл (`.txt`), где одна строка — один документ. * **Язык:** English (Simple), что идеально подходит для обучения моделей с небольшим количеством параметров (до 500M). * **Распределение:** * ~70% — короткие статьи (справки). * ~27% — средние статьи. * ~3% — объемные лонгриды. ## 🚀 Как использовать Для эффективного обучения рекомендуется использовать **Sequence Packing** (склейку нескольких статей в одно контекстное окно), чтобы максимально загрузить VRAM вашей видеокарты. ```python # Пример загрузки в PyTorch Dataset with open("train.txt", "r", encoding="utf-8") as f: data = f.readlines() ``` **Author:** [lumasik](https://huggingface.co/lumasik) **Base Dataset:** [legacy-datasets/wikipedia](https://huggingface.co/datasets/legacy-datasets/wikipedia)
提供机构:
lumasik
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作