QwQ-LongCoT-130K 微调数据集

超神经2024-12-14 更新2024-12-14 收录

下载链接：

https://hyper.ai/cn/datasets/36384

下载链接

链接失效反馈

官方服务：

资源简介：

QwQ-LongCoT-130K 数据集是一个专为训练类似 O1 这样的大语言模型 (LLMs) 而设计的 SFT (Supervised Fine-Tuning) 数据集。数据集的特点在于它专注于长链式思考 (chain-of-thought) 推理，这意味着它不仅仅追求生成长文本响应，而是更注重于生成的响应能够展现出深入的思考过程和逻辑推理。这个数据集包含了大约 130,000 个实例，每个实例都是使用 QwQ-32B-Preview 模型生成的响应。

The QwQ-LongCoT-130K dataset is a supervised fine-tuning (SFT) dataset specifically designed for training large language models (LLMs) analogous to O1. The dataset is characterized by its focus on chain-of-thought (CoT) reasoning: rather than merely aiming to generate lengthy text responses, it prioritizes producing outputs that exhibit in-depth thinking processes and rigorous logical reasoning. This dataset contains approximately 130,000 instances, each of which is a response generated by the QwQ-32B-Preview model.

创建时间：

2024-12-11

搜集汇总

数据集介绍

背景与挑战

背景概述

QwQ-LongCoT-130K 是一个专为大语言模型监督式微调设计的数据集，专注于长链式思考推理，包含约13万个由QwQ-32B-Preview模型生成的实例。它融合了NuminaMath和Magpie的样本，旨在通过精心策划的种子指令展现深入的逻辑推理过程。

以上内容由遇见数据集搜集并总结生成