AmanPriyanshu/reasoning-sft-3M-random-compilation

Name: AmanPriyanshu/reasoning-sft-3M-random-compilation
Creator: AmanPriyanshu
Published: 2026-03-18 02:33:02
License: 暂无描述

Hugging Face2026-03-18 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/AmanPriyanshu/reasoning-sft-3M-random-compilation

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-4.0 --- # Reasoning SFT Compilation (3M) Compiled and rebalanced reasoning SFT dataset. 3,000,000 samples across 283 domains from 20 source datasets. ## Schema | Column | Type | Description | |--------|------|-------------| | `input` | `list[{role: str, content: str}]` | Conversation history with roles: `user`, `system`, `assistant` | | `response` | `str` | Model response following strict think template | | `domain` | `str` | Unified domain label | | `source_dataset` | `str` | HuggingFace source dataset identifier | | `dataset_license` | `str` | License of the source dataset | ## Response Template Every response follows exactly: ``` <think> {reasoning} </think> {answer} ``` - Exactly one `<think>` and one `</think>` per response - Reasoning and answer are both stripped and non-empty - No think tokens appear in assistant messages within `input` ## Rebalancing Sampled from a 6.9M row compiled superset. Domains with large counts were capped; structured, tool-use, and code domains were prioritized: - **Tools**: 84,924 (100% of available) - **Structured**: 309,801 (100% of available) - **Code**: 618,456 (capped at 105K per domain) - **Other**: 1,986,819 (capped at ~100K per domain) ## Sources | Source | License | |--------|---------| | AmanPriyanshu/reasoning-sft-CHIMERA | apache-2.0 | | AmanPriyanshu/reasoning-sft-Edge-Agent-Reasoning-WebSearch-260K | mit | | AmanPriyanshu/reasoning-sft-IF_multi_constraints_upto5 | odc-by | | AmanPriyanshu/reasoning-sft-JSON-structuring-and-correcting | apache-2.0 | | AmanPriyanshu/reasoning-sft-Nemotron-Cascade-SFT-SWE-210K | cc-by-4.0 | | AmanPriyanshu/reasoning-sft-Nemotron-Instruction-Following-Chat-v1 | cc-by-4.0 | | AmanPriyanshu/reasoning-sft-NextCoderDataset-100K | mit | | AmanPriyanshu/reasoning-sft-One-Shot-CFT-Data-4.7K | apache-2.0 | | AmanPriyanshu/reasoning-sft-OpenThoughts3-1.2M-450K | apache-2.0 | | AmanPriyanshu/reasoning-sft-PleIAs-SYNTH-1M | cdla-permissive-2.0 | | AmanPriyanshu/reasoning-sft-Superior-Reasoning-SFT-gpt-oss-120b-434K | cc-by-4.0 | | AmanPriyanshu/reasoning-sft-dolci-think-sft-32b-1M | odc-by | | AmanPriyanshu/reasoning-sft-extract-0 | apache-2.0 | | AmanPriyanshu/reasoning-sft-github-codereview | mit | | AmanPriyanshu/reasoning-sft-interstellarninja-json-mode-reasoning-160K | apache-2.0 | | AmanPriyanshu/reasoning-sft-minimax-microsoft-orca-agentinstruct-1M-v1 | cdla-permissive-2.0 | | AmanPriyanshu/reasoning-sft-minimax-stratified-kmeans-diverse-reasoning-842K-only | cc-by-4.0 | | AmanPriyanshu/reasoning-sft-poor-quality-reasoning-sample-mix | apache-2.0 | | AmanPriyanshu/reasoning-sft-stem-reasoning-complex-FineProofs-126K | apache-2.0 | | AmanPriyanshu/reasoning-sft-synthetic_text_to_sql-128K | apache-2.0 | ## Files 20 parquet files (`part_00.parquet` through `part_19.parquet`), 150K rows each, ~20GB total. Rows are shuffled randomly (seed=42).

提供机构：

AmanPriyanshu

5,000+

优质数据集

54 个

任务类型

进入经典数据集