LeetCodeDataset

arXiv2025-09-30 收录

下载链接：

https://github.com/doocs/leetcode

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于在代码任务中训练ASPRM的编程问题集合，其中训练集包含1,745个问题，测试集包含175个问题。这些问题解决方案来源于GitHub仓库，并由GPT-4进行了审核。数据集的规模为训练集1,745个问题，测试集175个问题，其任务类型为代码生成。

This dataset comprises a collection of programming problems intended for training ASPRM on code generation tasks. It includes 1,745 training problems and 175 test problems. The solutions to these problems are sourced from GitHub repositories and audited by GPT-4, and the task type of this dataset is code generation.

搜集汇总

数据集介绍

构建方式

LeetCodeDataset的构建始于对LeetCode平台截至2025年3月底的所有Python题目的系统采集。通过LeetCode的GraphQL API，研究团队获取了每道题目的元数据，包括唯一标识符、难度等级、完整题目描述、起始代码以及主题标签。随后，从多个开源GitHub仓库检索参考解答，并在LeetCode平台上验证其正确性，确保获得100%通过率的真实解答。为生成测试用例，采用一次性提示方法引导大语言模型生成多样化的输入，并进一步通过复杂输入生成提示来增加输入复杂度，从而为每道题目平均构建超过100个测试用例。最后，在沙盒执行环境中计算真实解答在生成输入上的输出，完成了测试用例的构建。整个流程覆盖了平台上超过90%的Python题目，共计2869道。

特点

该数据集的核心特点在于其时间分割策略和丰富的元数据标注。数据集以2024年7月1日为界，将在此日期后发布的题目划归测试集，之前发布的题目则作为训练集，有效避免了数据污染问题，支持无偏的模型评估。每道题目均附带难度等级、发布日期、算法与数据结构标签等详尽元数据，并配有100多个复杂度各异的测试用例，大幅降低了假阳性风险。此外，数据集还提供了评估工具包，支持快速可靠的模型性能对比。在训练方面，数据集包含由Qwen2.5-Coder-32B-Instruct模型生成的经过验证的（查询，回答）对，仅需2.6K样本即可达到与110K样本训练相当的性能，展现出卓越的数据效率。

使用方法

LeetCodeDataset可同时用于代码生成模型的评估与训练。在评估场景中，用户可利用时间分割后的测试集（256道2024年7月后发布的问题）进行污染检测和模型能力分析，通过内置的评估工具包计算pass@1等指标，并可按难度、主题标签等维度进行细粒度分析。在训练场景中，数据集提供了监督微调（SFT）所需的（查询，回答）对，用户可直接用于微调基础模型。此外，由于每道题目均配有丰富的测试用例，该数据集也可支持强化学习（RL）训练流程，将测试用例作为奖励信号或验证器，构建一个自包含的代码生成模型开发测试平台。数据集和评估框架已开源在Hugging Face和GitHub上。

背景与挑战

背景概述

随着大型语言模型在代码生成领域的广泛应用，如何准确评估其推理能力并构建高效训练数据集成为核心研究议题。2025年，由Yunhui Xia、Wei Shen等研究人员提出的LeetCodeDataset应运而生，旨在弥补现有基准如LiveCodeBench在覆盖率和细粒度分析上的不足。该数据集系统收集了LeetCode平台上超过90%的Python问题，涵盖2869道题目，每道题目均附有丰富的元数据（难度、发布日期、主题标签）及100余个多样化测试用例。通过采用严格的时间分割策略（以2024年7月为界），LeetCodeDataset有效避免了数据污染，为代码LLM的鲁棒评估与高效训练提供了自洽的测试平台。其发布以来，已成为推动代码生成领域研究的重要基础设施。

当前挑战

LeetCodeDataset所面临的挑战主要体现在两个层面。在领域问题层面，现有编码基准普遍缺乏对LLM推理能力的精准考量，且训练数据集往往规模庞大但效率低下，难以支撑竞争级编程任务的深度掌握。LeetCodeDataset通过引入推理导向的问题集与时间分割机制，力图解决评估中的污染问题与训练中的样本效率瓶颈。在构建过程中，挑战尤为突出：如何从超过3000道题目中筛选并生成高质量测试用例，避免假阳性结果；如何平衡输入生成的复杂度与多样性，确保覆盖边缘情况；以及如何设计可靠的多阶段生成流程，利用模型自身生成正确答案以支撑监督微调，同时规避人工编写解答的局限性。这些技术难题的攻克，使LeetCodeDataset在数据质量与实用性上达到了新的高度。

常用场景

经典使用场景

LeetCodeDataset凭借其丰富的元数据、超过100个测试用例以及严格的时间分割（以2024年7月为界），成为评估代码大语言模型推理能力的经典基准。研究者可利用该数据集对模型进行全面的零样本或少样本评估，尤其关注其在动态规划、二分查找和树相关任务等需要深度推理的领域中的表现。数据集覆盖了90%以上的Python编程问题，涵盖从基础语法到复杂算法组合的多种难度级别，使得对模型能力的细粒度分析成为可能。通过月度准确率变化曲线，该数据集还能有效检测数据污染，确保评估结果的真实性和可靠性。

衍生相关工作

LeetCodeDataset的发布催生了多项衍生工作。在基准测试方面，它启发了更细粒度的代码生成评估框架，如CODEELO通过Elo评分系统对齐Codeforces平台，实现了人类可比的排名。在训练数据方面，Magicoder和Open-R1 CodeForces-CoTs等数据集借鉴了其模型生成数据的思路，利用深度求索R1等推理模型生成高质量思维链数据。此外，该数据集的高效训练特性推动了小样本监督微调研究，如OpenThoughts数据集通过114K高质量样本覆盖数学、科学和代码等领域，进一步拓展了代码生成模型的能力边界。这些工作共同推动了代码语言模型从评估到训练的全链路发展。

数据集最近研究