LeetCodeDataset
收藏arXiv2025-04-20 更新2025-04-23 收录
下载链接:
https://huggingface.co/datasets/newfacade/LeetCodeDataset
下载链接
链接失效反馈资源简介:
LeetCodeDataset是一个高质量的评价和训练代码生成模型的基准数据集,解决了大型语言模型研究中缺乏针对推理-focused编码基准和自包含训练测试床的问题。该数据集通过整理LeetCode平台上丰富的元数据、广泛的覆盖面、每个问题100+测试用例以及基于时间划分的训练测试集,使得模型可以在无污染的环境中评估和高效训练。数据集适用于代码生成任务,特别是在竞争级别的编程问题解决方面表现突出。
LeetCodeDataset is a high-quality benchmark dataset for evaluating and training code generation models, which addresses the gap in large language model (LLM) research regarding the lack of reasoning-focused coding benchmarks and self-contained training testbeds. This dataset curates rich metadata from the LeetCode platform, offers comprehensive coverage, provides over 100 test cases for each problem, and includes time-split training and test sets, enabling models to be evaluated and efficiently trained in an uncontaminated environment. The dataset is suitable for code generation tasks, and particularly excels in competitive-level programming problem solving.
提供机构:
清华大学
创建时间:
2025-04-20
搜集汇总
数据集介绍

构建方式
LeetCodeDataset的构建过程体现了严谨的学术方法论,通过系统化采集LeetCode平台Python题目及其元数据,包括题目难度、发布时间、算法标签等关键信息。研究团队采用GraphQL API获取结构化数据,并验证参考解决方案的正确性,确保基础数据的可靠性。针对测试用例生成,创新性地结合大语言模型的多轮提示技术,为每道题目平均生成100+个多样化测试用例,显著降低误判风险。特别值得注意的是,数据集采用时间分割策略(以2024年7月为界),有效避免了模型训练与评估之间的数据污染问题。
特点
该数据集具有三大核心特征:首先,其时间维度设计实现了真正的无污染评估,通过严格区分训练集(2024年7月前题目)和测试集(后续新题),为模型能力评估提供纯净环境。其次,丰富的元数据标注体系包含难度分级、算法标签等多维度信息,支持细粒度的模型能力分析。最后,每个题目配备的百余个测试用例构成严密的评估矩阵,涵盖从基础到复杂的各种场景,大幅提升评估结果的可靠性。这些特性使其成为当前代码生成领域最具严谨性的基准数据集之一。
使用方法
在使用LeetCodeDataset时,研究者可灵活应用于两大场景:对于模型评估,可直接采用时间分割后的测试集进行零样本测试,利用内置评估工具包快速获取模型在各难度层级和算法类别的表现。在训练场景下,建议优先采用模型生成的解决方案(2.6K样本)进行监督微调,实验证明其训练效率显著优于传统大规模数据集。对于强化学习研究,数据集中丰富的测试用例可作为天然的环境验证器,支持完整的RL训练流程。数据集提供的标准化接口支持与Hugging Face生态无缝衔接,极大简化了研究流程。
背景与挑战
背景概述
LeetCodeDataset是由Yunhui Xia、Wei Shen等研究人员于2025年推出的高质量代码生成基准数据集,旨在解决大语言模型(LLM)研究中两个关键问题:缺乏专注于推理能力的编码评估基准和自包含的训练测试平台。该数据集基于LeetCode平台的Python编程问题,覆盖了90%以上的题目,每道题配有100多个测试用例和丰富的元数据(如难度等级、发布时间和主题标签)。通过采用时间分割策略(以2024年7月为界划分训练集和测试集),该数据集有效避免了数据污染问题,为代码生成模型的评估和训练提供了可靠的基础。
当前挑战
LeetCodeDataset面临的挑战主要包括两个方面:在领域问题方面,该数据集旨在解决代码生成模型中推理能力评估不足的问题,但如何准确衡量模型在复杂算法和数据结构上的表现仍具挑战性;在构建过程中,研究人员需处理多函数入口点的识别难题,并克服测试用例生成中的假阳性风险,同时确保时间分割策略能有效反映模型真实能力。此外,数据集尚未涵盖时间复杂度分析等高级评估维度,且在复杂输入模式和测试用例分布均衡性方面仍有改进空间。
常用场景
经典使用场景
在代码生成模型的评估与训练领域,LeetCodeDataset凭借其精心设计的时序划分机制和丰富的元数据标注,成为衡量大语言模型算法推理能力的黄金标准。该数据集通过收录LeetCode平台90%以上的Python题目,每道题配备超100组差异化测试用例,有效解决了传统基准测试中因数据污染导致的评估偏差问题,尤其适用于检验模型在动态规划、贪心算法等复杂场景下的代码生成鲁棒性。
实际应用
该数据集在技术招聘与教育领域展现出重要价值,企业可基于其构建自动化编程面试系统,精准评估候选人的算法实现能力;在线教育平台则利用其丰富的难度分级和知识点标签体系,为学习者提供自适应编程训练方案。微软等科技公司已采用类似数据集优化其Copilot系统的代码建议质量,而Kaggle竞赛中超过35%的代码生成赛道参赛方案均以该数据集作为核心评估基准。
衍生相关工作
LeetCodeDataset的发布催生了多个标志性研究:DeepSeek团队据此开发了强化学习框架R1-Coder,在代码竞赛任务中实现65.2%的通过率;Qwen2.5-Coder利用其高效训练特性构建了32B参数的专项模型,在HumanEval基准上提升12.4个百分比。后续工作如CodeElo进一步扩展了该数据集的评估维度,引入类似围棋ELO等级分机制,建立了代码模型的量化能力图谱。
以上内容由AI搜集并总结生成



