lumasik/Synthetic-Pretrain-Paragraphs-150Topics

Name: lumasik/Synthetic-Pretrain-Paragraphs-150Topics
Creator: lumasik
Published: 2026-04-04 16:11:47
License: 暂无描述

Hugging Face2026-04-04 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/lumasik/Synthetic-Pretrain-Paragraphs-150Topics

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - ru - en tags: - synthetic - pretraining - qwen license: mit datasets: - custom --- # 🧠 Synthetic-Pretrain-Paragraphs-150Topics (RU/EN) Это синтетический датасет из сплошных абзацев текста на русском и английском языках, сгенерированный с помощью модели `Qwen2.5-7B-Instruct`. ## 📊 Характеристики датасета * **Размер:** ~68 МБ (чистый текст без мусора) * **Формат:** Сплошные абзацы без списков, тегов и переносов строк * **Темы:** 150 фундаментальных областей знаний (от программирования до спелеологии) * **Язык:** Примерно 50/50 Русский и Английский * **Информация:** Датасет был сделан с помощью vLLM на видеокарте RTX 3060 --- ## 🎭 Особенности датасета * **Претрейн-машина:** Идеально подходит для скармливания маленьким моделям на этапе предобучения (Pre-training), чтобы они учили сложную грамматику и структуру языка. * **Никакой воды:** В промпте стоял жесткий запрет на приветствия, списки и общение. Внутри только факты (или попытки в них). * **Ядерный бздёж:** Так как это чистая синтетика, Qwen знатно галлюцинировал. Модель придумала лекарство "Эсперанто", создала тайные группы Сталина и перепутала всех французских драматургов 😅. *Датасет создан исключительно для обучения языковых моделей и тестов внимания. Пожалуйста, не используйте его для проверки реальных исторических или научных фактов!*

提供机构：

lumasik

5,000+

优质数据集

54 个

任务类型

进入经典数据集