five

DarkyMan/Opus-4.6-RU-Reasoning-8000x-not-filtered

收藏
Hugging Face2026-03-22 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/DarkyMan/Opus-4.6-RU-Reasoning-8000x-not-filtered
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - text-generation - question-answering language: - ru tags: - code - synthetic size_categories: - 1K<n<10K --- # Opus-4.6-RU-Reasoning — Russian Technical Reasoning Dataset A large-scale Russian-language dataset of deep technical Q&A pairs generated with **Claude claude-opus-4.6** (extended thinking enabled). Each sample contains a topic, a full reasoning chain, and a detailed expert-level answer. ## Dataset Info - **Language:** Russian 🇷🇺 - **Size:** ~7,758 samples (growing) - **Model used:** `anthropic/claude-opus-4.6` with `reasoning: {enabled: true, effort: "high"}` - **Format:** ShareGPT-style (`messages` with `user` / `assistant` + `reasoning` field) - **Topics:** Systems programming, networking, databases, algorithms, DevOps, security, backend engineering, and more ## Sample Structure ```json { "messages": [ { "role": "user", "content": "TCP congestion control: от Tahoe до BBR" }, { "role": "assistant", "reasoning": "...(internal chain-of-thought)...", "content": "...(detailed expert answer with code examples)..." } ] } ``` ## Use Cases - Fine-tuning Russian-language LLMs on technical reasoning - Building reasoning-capable models (QwQ, DeepSeek-R1 style) - Training instruction-following models for backend/systems engineering - Distillation of Claude claude-opus-4.6 reasoning into smaller models ## 🙋 Request Your Custom Version — It's Free! **Want a different format, more rows, or a specific topic domain?** Open a thread in the **💬 Community tab** and tell me: - What format you need (Alpaca, ShareGPT, plain Q&A, with/without reasoning, etc.) - How many rows (~1k, ~10k, ~100k+) - What topic domain or use case you have in mind I'll generate and publish it for free — I'm just curious what people are building. 🚀 ## Notes - Dataset is **not filtered** — some responses may be shorter or lower quality - A cleaned/filtered version is planned - Generation is ongoing — dataset size will grow ## Author **DarkyMan** — building AI tools and datasets. Requests & feedback → Community tab ↑ --- # Opus-4.6-RU-Reasoning — Русский датасет технических рассуждений Крупный русскоязычный датасет глубоких технических вопросов и ответов, сгенерированных моделью **Claude claude-opus-4.6** с включённым расширенным мышлением (extended thinking). Каждый сэмпл содержит тему, полную цепочку рассуждений и детальный ответ уровня senior-инженера. ## Информация о датасете - **Язык:** Русский 🇷🇺 - **Размер:** ~7 758 сэмплов (датасет пополняется) - **Модель:** `anthropic/claude-opus-4.6` с `reasoning: {enabled: true, effort: "high"}` - **Формат:** ShareGPT-стиль (`messages` с полями `user` / `assistant` + поле `reasoning`) - **Темы:** Системное программирование, сети, базы данных, алгоритмы, DevOps, безопасность, бэкенд и многое другое ## Структура сэмпла ```json { "messages": [ { "role": "user", "content": "TCP congestion control: от Tahoe до BBR" }, { "role": "assistant", "reasoning": "...(внутренняя цепочка рассуждений)...", "content": "...(детальный экспертный ответ с примерами кода)..." } ] } ``` ## Применение - Файн-тюнинг русскоязычных LLM на технических рассуждениях - Обучение моделей с reasoning (в стиле QwQ, DeepSeek-R1) - Обучение моделей следованию инструкциям в области бэкенда и системного программирования - Дистилляция рассуждений Claude claude-opus-4.6 в меньшие модели ## 🙋 Запросите свою версию — это бесплатно! **Нужен другой формат, больше строк или конкретная тематика?** Откройте тред во вкладке **💬 Community** и напишите: - Какой формат нужен (Alpaca, ShareGPT, plain Q&A, с reasoning или без и т.д.) - Сколько строк (~1k, ~10k, ~100k+) - Тематику или задачу, под которую нужен датасет Сгенерирую и опубликую бесплатно — мне просто интересно, что люди строят. 🚀 ## Примечания - Датасет **не фильтрован** — часть ответов может быть короче или ниже по качеству - Планируется отфильтрованная версия - Генерация продолжается — датасет будет расти ## Автор **DarkyMan** — создаю AI-инструменты и датасеты. Запросы и обратная связь → вкладка Community ↑
提供机构:
DarkyMan
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作