QwQ-LongCoT-Verified-130K
收藏Hugging Face2024-12-19 更新2024-12-20 收录
下载链接:
https://huggingface.co/datasets/qingy2024/QwQ-LongCoT-Verified-130K
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子集,每个子集有不同的配置和特征。主要子集包括:default(包含原始数据集的所有数据)、magpie(仅包含Magpie生成的数据)、numina-math-only(仅包含来自NuminaMathCoT数据集的问题)、verified(仅包含已验证的数据)。数据集的特征包括问题、qwq、解决方案和验证状态。数据集的大小和下载大小在每个子集中都有详细说明。
创建时间:
2024-12-18
原始信息汇总
QwQ-LongCoT-Verified-130K 数据集概述
数据集配置
默认配置 (default)
- 特征:
problem: 字符串类型qwq: 字符串类型solution: 字符串类型verified: 布尔类型
- 分割:
train: 133,102个样本,1,063,437,132字节
- 下载大小: 468,816,931字节
- 数据集大小: 1,063,437,132字节
Magpie配置 (magpie)
- 特征:
problem: 字符串类型qwq: 字符串类型solution: 字符串类型verified: 布尔类型
- 分割:
train: 43,037个样本,306,087,511字节
- 下载大小: 145,128,756字节
- 数据集大小: 306,087,511字节
Numina Math Only配置 (numina-math-only)
- 特征:
problem: 字符串类型qwq: 字符串类型solution: 字符串类型verified: 布尔类型
- 分割:
train: 90,065个样本,757,349,622字节
- 下载大小: 323,676,680字节
- 数据集大小: 757,349,622字节
ShareGPT Verified配置 (sharegpt-verified)
- 特征:
conversations: 列表类型,包含from和value,均为字符串类型
- 分割:
train: 64,575个样本,343,094,979字节
- 下载大小: 145,568,676字节
- 数据集大小: 343,094,979字节
ShareGPT Verified Cleaned配置 (sharegpt-verified-cleaned)
- 特征:
conversations: 列表类型,包含from和value,均为字符串类型
- 分割:
train: 61,666个样本,327,639,101.4326597字节
- 下载大小: 120,479,962字节
- 数据集大小: 327,639,101.4326597字节
ShareGPT Verified Stage2配置 (sharegpt-verified-stage2)
- 特征:
conversations: 列表类型,包含from和value,均为字符串类型
- 分割:
train: 10,000个样本,53,131,239.488966316字节
- 下载大小: 22,441,922字节
- 数据集大小: 53,131,239.488966316字节
Verified配置 (verified)
- 特征:
problem: 字符串类型qwq: 字符串类型solution: 字符串类型verified: 布尔类型
- 分割:
train: 64,575个样本,402,429,456字节
- 下载大小: 178,162,536字节
- 数据集大小: 402,429,456字节
数据集子集
| 子集名称 | 描述 | 样本数量 |
|---|---|---|
| default | 包含原始数据集的所有数据。 | 133k |
| magpie | 仅包含Magpie生成的数据。 | 43k |
| numina-math-only | 仅包含来自NuminaMathCoT数据集的问题。 | 90.1k |
| verified | 仅保留已验证的数据。 | 64.6k |
搜集汇总
数据集介绍

构建方式
QwQ-LongCoT-Verified-130K数据集的构建基于多个子集的整合,涵盖了从原始数据集到经过验证的数据子集。具体而言,数据集包含了来自不同来源的问题、解决方案以及验证标记。其中,'default'子集包含了原始数据集的所有数据,'magpie'子集仅包含由Magpie生成的数据,'numina-math-only'子集则仅包含来自NuminaMathCoT数据集的问题,而'verified'子集则保留了经过验证的数据。每个子集的数据均经过精细处理,确保数据的质量和一致性。
特点
该数据集的显著特点在于其多样性和验证性。首先,数据集包含了多个子集,每个子集针对不同的应用场景,如'magpie'子集适用于生成式模型的训练,而'numina-math-only'子集则专注于数学问题的解决。其次,数据集中的每个解决方案都附带了验证标记,确保了数据的可靠性。此外,数据集的规模较大,总共有超过13万条数据,为模型训练提供了丰富的资源。
使用方法
QwQ-LongCoT-Verified-130K数据集适用于多种自然语言处理任务,尤其是问题解答和生成式模型的训练。用户可以根据需求选择不同的子集进行训练,如'default'子集适用于全面训练,'magpie'子集适用于生成式任务,'numina-math-only'子集适用于数学问题的解决。使用时,用户可以通过HuggingFace的datasets库加载数据集,并根据任务需求对数据进行预处理和模型训练。数据集的验证标记也可用于评估模型的准确性和可靠性。
背景与挑战
背景概述
QwQ-LongCoT-Verified-130K数据集由Amphora团队创建,旨在为数学问题解决领域提供高质量的训练数据。该数据集的核心研究问题是如何通过自动化方法生成并验证数学问题的解决方案,从而推动机器学习模型在数学推理任务中的表现。数据集包含了来自NuminaMathCoT和Magpie等多个来源的数据,涵盖了广泛的数学问题及其对应的解决方案。通过引入验证机制,确保了数据集的可靠性和准确性,为相关领域的研究提供了坚实的基础。
当前挑战
QwQ-LongCoT-Verified-130K数据集在构建过程中面临了多个挑战。首先,数据集需要处理来自不同来源的数据,确保其一致性和准确性,尤其是在自动化生成解决方案时,可能会出现标签错误的情况。其次,验证机制的引入虽然提高了数据质量,但也增加了数据处理的复杂性,尤其是在处理部分未验证数据时,如何确保模型的鲁棒性是一个关键问题。此外,数据集的多样性和规模也带来了存储和计算资源的挑战,如何在有限的资源下高效利用数据集进行模型训练是另一个亟待解决的问题。
常用场景
经典使用场景
QwQ-LongCoT-Verified-130K数据集在自然语言处理领域中,主要用于训练和评估模型在复杂数学问题上的推理能力。该数据集包含了大量经过验证的数学问题及其解决方案,特别适用于开发和测试能够进行长链推理(LongCoT)的模型。通过使用该数据集,研究者可以训练模型在面对复杂数学问题时,能够生成准确且经过验证的解决方案。
解决学术问题
QwQ-LongCoT-Verified-130K数据集解决了在自然语言处理领域中,模型在处理复杂数学问题时推理能力不足的问题。通过提供大量经过验证的数学问题及其解决方案,该数据集为研究者提供了一个标准化的测试平台,帮助评估和提升模型在数学推理任务中的表现。这对于推动人工智能在数学教育、科学计算等领域的应用具有重要意义。
衍生相关工作
基于QwQ-LongCoT-Verified-130K数据集,研究者们开发了多种相关的经典工作。例如,有研究者利用该数据集训练了能够进行长链推理的神经网络模型,显著提升了模型在复杂数学问题上的表现。此外,还有研究者基于该数据集开发了新的评估指标,用于更准确地衡量模型在数学推理任务中的性能。这些工作不仅推动了自然语言处理技术的发展,也为数学教育和科学计算领域带来了新的应用前景。
以上内容由遇见数据集搜集并总结生成



