LeetCodeDataset|代码生成数据集|编程竞赛数据集

arXiv2025-04-20 更新2025-04-23 收录

代码生成

编程竞赛

下载链接：

https://huggingface.co/datasets/newfacade/LeetCodeDataset

下载链接

链接失效反馈

资源简介：

LeetCodeDataset是一个高质量的评价和训练代码生成模型的基准数据集，解决了大型语言模型研究中缺乏针对推理-focused编码基准和自包含训练测试床的问题。该数据集通过整理LeetCode平台上丰富的元数据、广泛的覆盖面、每个问题100+测试用例以及基于时间划分的训练测试集，使得模型可以在无污染的环境中评估和高效训练。数据集适用于代码生成任务，特别是在竞争级别的编程问题解决方面表现突出。

提供机构：

清华大学

创建时间：

2025-04-20

AI搜集汇总

数据集介绍

构建方式

LeetCodeDataset的构建过程体现了严谨的学术方法论，通过系统化采集LeetCode平台Python题目及其元数据，包括题目难度、发布时间、算法标签等关键信息。研究团队采用GraphQL API获取结构化数据，并验证参考解决方案的正确性，确保基础数据的可靠性。针对测试用例生成，创新性地结合大语言模型的多轮提示技术，为每道题目平均生成100+个多样化测试用例，显著降低误判风险。特别值得注意的是，数据集采用时间分割策略（以2024年7月为界），有效避免了模型训练与评估之间的数据污染问题。

特点

该数据集具有三大核心特征：首先，其时间维度设计实现了真正的无污染评估，通过严格区分训练集（2024年7月前题目）和测试集（后续新题），为模型能力评估提供纯净环境。其次，丰富的元数据标注体系包含难度分级、算法标签等多维度信息，支持细粒度的模型能力分析。最后，每个题目配备的百余个测试用例构成严密的评估矩阵，涵盖从基础到复杂的各种场景，大幅提升评估结果的可靠性。这些特性使其成为当前代码生成领域最具严谨性的基准数据集之一。

使用方法

在使用LeetCodeDataset时，研究者可灵活应用于两大场景：对于模型评估，可直接采用时间分割后的测试集进行零样本测试，利用内置评估工具包快速获取模型在各难度层级和算法类别的表现。在训练场景下，建议优先采用模型生成的解决方案（2.6K样本）进行监督微调，实验证明其训练效率显著优于传统大规模数据集。对于强化学习研究，数据集中丰富的测试用例可作为天然的环境验证器，支持完整的RL训练流程。数据集提供的标准化接口支持与Hugging Face生态无缝衔接，极大简化了研究流程。

背景与挑战

背景概述

LeetCodeDataset是由Yunhui Xia、Wei Shen等研究人员于2025年推出的高质量代码生成基准数据集，旨在解决大语言模型（LLM）研究中两个关键问题：缺乏专注于推理能力的编码评估基准和自包含的训练测试平台。该数据集基于LeetCode平台的Python编程问题，覆盖了90%以上的题目，每道题配有100多个测试用例和丰富的元数据（如难度等级、发布时间和主题标签）。通过采用时间分割策略（以2024年7月为界划分训练集和测试集），该数据集有效避免了数据污染问题，为代码生成模型的评估和训练提供了可靠的基础。

当前挑战

LeetCodeDataset面临的挑战主要包括两个方面：在领域问题方面，该数据集旨在解决代码生成模型中推理能力评估不足的问题，但如何准确衡量模型在复杂算法和数据结构上的表现仍具挑战性；在构建过程中，研究人员需处理多函数入口点的识别难题，并克服测试用例生成中的假阳性风险，同时确保时间分割策略能有效反映模型真实能力。此外，数据集尚未涵盖时间复杂度分析等高级评估维度，且在复杂输入模式和测试用例分布均衡性方面仍有改进空间。

常用场景

经典使用场景

在代码生成模型的评估与训练领域，LeetCodeDataset凭借其精心设计的时序划分机制和丰富的元数据标注，成为衡量大语言模型算法推理能力的黄金标准。该数据集通过收录LeetCode平台90%以上的Python题目，每道题配备超100组差异化测试用例，有效解决了传统基准测试中因数据污染导致的评估偏差问题，尤其适用于检验模型在动态规划、贪心算法等复杂场景下的代码生成鲁棒性。

实际应用

该数据集在技术招聘与教育领域展现出重要价值，企业可基于其构建自动化编程面试系统，精准评估候选人的算法实现能力；在线教育平台则利用其丰富的难度分级和知识点标签体系，为学习者提供自适应编程训练方案。微软等科技公司已采用类似数据集优化其Copilot系统的代码建议质量，而Kaggle竞赛中超过35%的代码生成赛道参赛方案均以该数据集作为核心评估基准。

衍生相关工作

LeetCodeDataset的发布催生了多个标志性研究：DeepSeek团队据此开发了强化学习框架R1-Coder，在代码竞赛任务中实现65.2%的通过率；Qwen2.5-Coder利用其高效训练特性构建了32B参数的专项模型，在HumanEval基准上提升12.4个百分比。后续工作如CodeElo进一步扩展了该数据集的评估维度，引入类似围棋ELO等级分机制，建立了代码模型的量化能力图谱。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集，包含超过530万张图像-文本对，涵盖六种不同的医学成像模态：X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型（LLMs）将特定模态的分类数据集转换为图像-文本格式，并结合现有的医学领域的图像-文本数据，以促进可扩展的视觉语言模型（VLM）预训练。

github 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建，是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像，规模等价于超过2000万张不重叠的三波段图像，远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像，包括来自地球观测一号（EO-1）Hyperion和高分五号（GF-5B）两种传感器的图像，光谱范围从可见光到短波及中波红外，具有从紫外到长波红外的330个光谱波段，空间分辨率为30米。每幅图像经过精心处理，去除了无效波段和水汽吸收波段，保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究，还能够用于开发和测试各种高光谱图像处理方法，比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录