lumasik/Synthetic-Pretrain-Paragraphs-150Topics
收藏Hugging Face2026-04-04 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/lumasik/Synthetic-Pretrain-Paragraphs-150Topics
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ru
- en
tags:
- synthetic
- pretraining
- qwen
license: mit
datasets:
- custom
---
# 🧠 Synthetic-Pretrain-Paragraphs-150Topics (RU/EN)
Это синтетический датасет из сплошных абзацев текста на русском и английском языках, сгенерированный с помощью модели `Qwen2.5-7B-Instruct`.
## 📊 Характеристики датасета
* **Размер:** ~68 МБ (чистый текст без мусора)
* **Формат:** Сплошные абзацы без списков, тегов и переносов строк
* **Темы:** 150 фундаментальных областей знаний (от программирования до спелеологии)
* **Язык:** Примерно 50/50 Русский и Английский
* **Информация:** Датасет был сделан с помощью vLLM на видеокарте RTX 3060
---
## 🎭 Особенности датасета
* **Претрейн-машина:** Идеально подходит для скармливания маленьким моделям на этапе предобучения (Pre-training), чтобы они учили сложную грамматику и структуру языка.
* **Никакой воды:** В промпте стоял жесткий запрет на приветствия, списки и общение. Внутри только факты (или попытки в них).
* **Ядерный бздёж:** Так как это чистая синтетика, Qwen знатно галлюцинировал. Модель придумала лекарство "Эсперанто", создала тайные группы Сталина и перепутала всех французских драматургов 😅.
*Датасет создан исключительно для обучения языковых моделей и тестов внимания. Пожалуйста, не используйте его для проверки реальных исторических или научных фактов!*
提供机构:
lumasik



