LeetCodeDataset_rectified

Hugging Face2025-07-21 更新2025-07-22 收录

下载链接：

https://huggingface.co/datasets/Leon-Leee/LeetCodeDataset_rectified

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含编程问题的数据集，每个问题包含任务标识、问题ID、难度、标签、问题描述、起始代码、预计日期、提示、完成情况、入口点、测试代码、输入输出信息、问题描述校对等信息。数据集分为训练集和测试集，支持文本生成等任务类别，语言为英语，标签包括代码。数据集规模在1K到10K之间。

创建时间：

2025-07-18

原始信息汇总

LeetCodeDataset_rectified 数据集概述

数据集基本信息

许可证: Apache-2.0
语言: 英语 (en)
标签: 代码 (code)
任务类别: 文本生成 (text-generation)
规模类别: 1K<n<10K

数据集结构

特征:
- task_id: 字符串类型
- question_id: 整型 (int64)
- difficulty: 字符串类型
- tags: 字符串序列
- problem_description: 字符串类型
- starter_code: 字符串类型
- estimated_date: 时间戳类型 (timestamp[ns])
- prompt: 字符串类型
- completion: 字符串类型
- entry_point: 字符串类型
- test: 字符串类型
- input_output: 列表类型，包含input和output两个字符串字段
- problem_typo_check: 字符串类型
- problem_description_corrected: 字符串类型
数据分片:
- train:
  - 样本数: 2641
  - 大小: 80678841 字节
- test:
  - 样本数: 228
  - 大小: 6441713 字节
下载大小: 24270488 字节
数据集总大小: 87120554 字节

数据来源与修正

使用 o4-mini 工具修正了数据整理过程中的拼写错误或缺失信息。
相关修正记录参考: https://github.com/newfacade/LeetCodeDataset/issues/1

搜集汇总

数据集介绍

构建方式

在编程教育领域，LeetCodeDataset_rectified数据集通过系统化的数据清洗流程构建而成。原始数据来源于知名在线编程平台LeetCode的题目库，采用o4-mini工具对题目描述中的拼写错误和缺失信息进行自动化校正，确保了数据质量。数据集包含2641条训练样本和228条测试样本，每条记录均包含题目ID、难度标签、问题描述、初始代码、测试用例等结构化字段，并通过时间戳标记题目发布时间，形成完整的编程题目知识体系。

使用方法

研究者可将该数据集应用于代码生成模型的训练与评估，通过prompt字段输入问题描述，模型需生成符合测试用例要求的completion代码。训练集与测试集的明确划分支持标准的机器学习流程，输入输出验证集可用于模型性能的自动化测试。对于教育技术研究，可利用难度标签和题型标签进行分层性能分析，而时间戳字段支持研究题目难度随时间演变的趋势。数据集的Apache 2.0许可允许自由的学术和商业用途。

背景与挑战

背景概述

LeetCodeDataset_rectified数据集作为编程教育领域的重要资源，由开源社区通过GitHub平台协作构建，旨在为算法与编程技能的自动化评估提供结构化数据支持。该数据集收录了来自知名在线编程平台LeetCode的2641道题目及其解决方案，涵盖字符串处理、动态规划等多类算法题型，每道题目均标注难度等级、标签分类及测试用例。数据集通过o4-mini工具对原始数据进行了拼写校正和缺失信息补全，显著提升了数据质量，为代码生成模型的训练与评估提供了标准化基准。其时间戳特征允许研究者追踪算法题目的历史演变，对计算机科学教育和技术面试准备具有重要参考价值。

当前挑战

该数据集面临的核心挑战体现在算法题目理解的语义复杂性上，不同难度等级的题目需要模型掌握从基础语法到高级算法设计的多层次知识。测试用例的覆盖全面性直接影响模型评估的可靠性，需平衡边界案例与常规案例的比例。数据构建过程中，题目描述的拼写错误和格式不一致问题通过开源工具进行了校正，但多模态编程问题（如需要结合流程图理解的题目）仍缺乏有效表示。此外，算法题目的动态更新特性要求数据集持续迭代维护，以保持与现实编程挑战的同步性。

常用场景

经典使用场景

在计算机科学教育领域，LeetCodeDataset_rectified数据集为编程能力评估与算法训练提供了标准化测试平台。其结构化的问题描述、测试用例及参考答案，使研究者能够系统性地分析不同难度级别编程题目的解决模式，特别适用于自动化代码生成模型的训练与验证。数据集涵盖动态规划、图论等多元算法标签，为构建领域适应的代码生成基准提供了丰富素材。

解决学术问题

该数据集有效解决了编程教育中缺乏标准化评估体系的难题，通过精确标注的问题难度分级和算法标签，支持教育者量化分析学习者的算法掌握程度。在自然语言处理领域，其问题描述与代码对的对应关系，为研究自然语言到编程语言的语义映射机制提供了实验基础，显著推进了智能编程辅助工具的研发进程。

实际应用

工业界的在线编程测评系统可基于该数据集构建智能诊断模块，通过比对用户提交代码与标准答案的差异，实现实时错误定位与修复建议生成。技术招聘平台利用其丰富的题目资源，可开发自适应难度调节的算法面试系统，精准评估候选人的代码能力与思维逻辑水平。

数据集最近研究