qwen3-4b-thinking-aime-untruncated

Hugging Face2025-12-01 更新2025-12-02 收录

下载链接：

https://huggingface.co/datasets/elichen-skymizer/qwen3-4b-thinking-aime-untruncated

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于特定任务的机器学习数据集。数据集包括配置信息、数据特征、数据划分和数据文件。数据集用于训练和测试机器学习模型。

创建时间：

2025-11-27

原始信息汇总

数据集概述

数据集基本信息

数据集名称: qwen3-4b-thinking-aime-untruncated
托管地址: https://huggingface.co/datasets/elichen-skymizer/qwen3-4b-thinking-aime-untruncated

数据集结构与配置

数据集包含多个配置，每个配置对应一个独立的数据子集。

配置列表

数字种子配置：配置名称为 "1", "2", "3", "4", "5", "6", "7", "8", "9", "10", "1234"。
AIME 年份配置：配置名称为 "aime24", "aime25"。
合并配置：配置名称为 "concatenated"。

通用特征（所有配置共享）

所有配置均包含以下特征（字段）：

question: 字符串类型，表示问题。
id: 整型，表示样本ID。
source: 字符串类型，表示数据来源。
category: 字符串类型，表示问题类别。
input_ids: 整数列表，表示输入令牌的ID序列。
input_tokens_len: 整型，表示输入令牌的长度。
generated_texts: 字符串类型，表示生成的文本。
generated_tokens_len: 整型，表示生成文本的令牌长度。
n_prefill_tokens: 整型，表示预填充令牌的数量。
seed: 整型，表示随机种子。
labels: 整数列表，表示标签序列。

数据划分

所有配置仅包含一个数据划分：train（训练集）。

各配置详情

数字种子配置（"1" 至 "10", "1234"）

样本数量: 每个配置 60 个示例。
数据集大小: 范围约为 22.1 MB 至 23.6 MB。
下载大小: 范围约为 4.8 MB 至 5.1 MB。
数据文件路径模式: {config_name}/train-*

AIME 年份配置

配置 "aime24":
- 样本数量: 330 个示例。
- 数据集大小: 125,767,356 字节（约 125.8 MB）。
- 下载大小: 26,086,662 字节（约 26.1 MB）。
- 数据文件路径: aime24/train-*
配置 "aime25":
- 样本数量: 330 个示例。
- 数据集大小: 125,767,356 字节（约 125.8 MB）。
- 下载大小: 28,443,862 字节（约 28.4 MB）。
- 数据文件路径: aime25/train-*

合并配置

配置 "concatenated":
- 样本数量: 660 个示例。
- 数据集大小: 251,534,712 字节（约 251.5 MB）。
- 下载大小: 53,884,545 字节（约 53.9 MB）。
- 数据文件路径: concatenated/train-*

总结

该数据集包含多个由不同随机种子或特定年份（AIME 2024, 2025）划分的配置，以及一个合并版本。所有数据均为训练集，包含问题、生成的文本及其相关的令牌化与处理信息。

搜集汇总

数据集介绍

构建方式

在大型语言模型推理能力评估的背景下，qwen3-4b-thinking-aime-untruncated数据集的构建采用了系统化的生成策略。该数据集源自AIME数学竞赛题目，通过Qwen2.5-4B-Instruct模型进行思维链文本生成。构建过程涉及对原始问题的编码处理，生成对应的输入标识序列，并利用不同随机种子控制生成过程的随机性，从而产生多样化的推理路径。每个配置对应特定的生成参数，最终整合为包含完整生成文本及其元信息的结构化数据。

特点

该数据集的核心特征在于其专注于模型推理过程的深度记录。它不仅提供了原始的数学问题文本，还包含了模型生成的完整思维链文本，以及输入标识、生成文本长度、预填充令牌数等详细的元数据。数据集通过多个配置版本呈现，每个版本由不同的随机种子控制，确保了生成内容的多样性。这种设计使得研究者能够细致分析模型在不同随机性下的推理表现，为评估语言模型的数学问题解决能力提供了丰富的、可追溯的实证材料。

使用方法

该数据集主要服务于大型语言模型的推理能力分析与评估研究。使用者可以通过HuggingFace数据集库加载特定的配置版本，例如‘aime24’、‘aime25’或整合的‘concatenated’版本。加载后，研究者能够访问每个样本的完整字段，包括问题、生成的思维链文本以及各类长度和标识信息。这些数据可用于定量分析生成文本的质量、长度分布，或用于定性评估模型推理的逻辑性与正确性，为模型优化和基准测试提供关键依据。

背景与挑战

背景概述

在人工智能与自然语言处理领域，大型语言模型的推理能力评估已成为核心研究议题。qwen3-4b-thinking-aime-untruncated数据集应运而生，旨在深入探究模型在复杂数学推理任务中的表现。该数据集由研究团队基于Qwen3-4B模型构建，聚焦于AIME（美国数学邀请赛）等高水平竞赛题目，通过生成未截断的文本序列，系统分析模型在长程推理与多步骤问题解决中的逻辑连贯性。其创建不仅推动了语言模型在数学推理领域的基准测试发展，也为模型优化与评估方法提供了关键数据支持。

当前挑战

该数据集致力于解决语言模型在复杂数学推理任务中面临的挑战，包括多步骤逻辑推导的准确性与长文本生成的连贯性。构建过程中，需确保生成文本的完整性与多样性，避免因截断导致推理链断裂；同时，标注高质量的标签序列以监督模型学习，并处理不同种子参数下的生成变体，以增强数据集的鲁棒性与泛化能力。这些挑战要求精细的数据设计与管理策略。

常用场景

经典使用场景

在大型语言模型推理能力评估领域，qwen3-4b-thinking-aime-untruncated数据集以其包含的AIME竞赛数学问题为核心，为模型思维链生成与验证提供了经典场景。该数据集通过记录输入问题、生成的文本序列及对应的标签，使研究者能够深入分析模型在复杂数学推理任务中的内部思考过程，尤其适用于评估模型在未截断输出条件下的多步推理连贯性与逻辑性。

衍生相关工作

围绕该数据集，已衍生出多项聚焦于推理过程分析与增强的经典研究工作。例如，基于其生成的思维链文本，研究者开发了新的评估指标以衡量推理步骤的质量；同时，它也催生了针对长序列生成优化的训练方法，旨在提升模型在未截断条件下的输出稳定性。这些工作共同推动了语言模型在复杂任务上从结果导向到过程可解释的范式转变。

数据集最近研究