five

lumasik/Synthetic-Pretrain-Paragraphs-150Topics

收藏
Hugging Face2026-04-04 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/lumasik/Synthetic-Pretrain-Paragraphs-150Topics
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ru - en tags: - synthetic - pretraining - qwen license: mit datasets: - custom --- # 🧠 Synthetic-Pretrain-Paragraphs-150Topics (RU/EN) Это синтетический датасет из сплошных абзацев текста на русском и английском языках, сгенерированный с помощью модели `Qwen2.5-7B-Instruct`. ## 📊 Характеристики датасета * **Размер:** ~68 МБ (чистый текст без мусора) * **Формат:** Сплошные абзацы без списков, тегов и переносов строк * **Темы:** 150 фундаментальных областей знаний (от программирования до спелеологии) * **Язык:** Примерно 50/50 Русский и Английский * **Информация:** Датасет был сделан с помощью vLLM на видеокарте RTX 3060 --- ## 🎭 Особенности датасета * **Претрейн-машина:** Идеально подходит для скармливания маленьким моделям на этапе предобучения (Pre-training), чтобы они учили сложную грамматику и структуру языка. * **Никакой воды:** В промпте стоял жесткий запрет на приветствия, списки и общение. Внутри только факты (или попытки в них). * **Ядерный бздёж:** Так как это чистая синтетика, Qwen знатно галлюцинировал. Модель придумала лекарство "Эсперанто", создала тайные группы Сталина и перепутала всех французских драматургов 😅. *Датасет создан исключительно для обучения языковых моделей и тестов внимания. Пожалуйста, не используйте его для проверки реальных исторических или научных фактов!*
提供机构:
lumasik
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作