five

QwQ-LongCoT-130K 微调数据集

收藏
超神经2024-12-14 更新2024-12-14 收录
下载链接:
https://hyper.ai/cn/datasets/36384
下载链接
链接失效反馈
官方服务:
资源简介:
QwQ-LongCoT-130K 数据集是一个专为训练类似 O1 这样的大语言模型 (LLMs) 而设计的 SFT (Supervised Fine-Tuning) 数据集。数据集的特点在于它专注于长链式思考 (chain-of-thought) 推理,这意味着它不仅仅追求生成长文本响应,而是更注重于生成的响应能够展现出深入的思考过程和逻辑推理。这个数据集包含了大约 130,000 个实例,每个实例都是使用 QwQ-32B-Preview 模型生成的响应。

The QwQ-LongCoT-130K dataset is a supervised fine-tuning (SFT) dataset specifically designed for training large language models (LLMs) analogous to O1. The dataset is characterized by its focus on chain-of-thought (CoT) reasoning: rather than merely aiming to generate lengthy text responses, it prioritizes producing outputs that exhibit in-depth thinking processes and rigorous logical reasoning. This dataset contains approximately 130,000 instances, each of which is a response generated by the QwQ-32B-Preview model.
创建时间:
2024-12-11
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
QwQ-LongCoT-130K 是一个专为大语言模型监督式微调设计的数据集,专注于长链式思考推理,包含约13万个由QwQ-32B-Preview模型生成的实例。它融合了NuminaMath和Magpie的样本,旨在通过精心策划的种子指令展现深入的逻辑推理过程。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务