five

LeetCodeDataset_rectified

收藏
Hugging Face2025-07-21 更新2025-07-22 收录
下载链接:
https://huggingface.co/datasets/Leon-Leee/LeetCodeDataset_rectified
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含编程问题的数据集,每个问题包含任务标识、问题ID、难度、标签、问题描述、起始代码、预计日期、提示、完成情况、入口点、测试代码、输入输出信息、问题描述校对等信息。数据集分为训练集和测试集,支持文本生成等任务类别,语言为英语,标签包括代码。数据集规模在1K到10K之间。
创建时间:
2025-07-18
原始信息汇总

LeetCodeDataset_rectified 数据集概述

数据集基本信息

  • 许可证: Apache-2.0
  • 语言: 英语 (en)
  • 标签: 代码 (code)
  • 任务类别: 文本生成 (text-generation)
  • 规模类别: 1K<n<10K

数据集结构

  • 特征:

    • task_id: 字符串类型
    • question_id: 整型 (int64)
    • difficulty: 字符串类型
    • tags: 字符串序列
    • problem_description: 字符串类型
    • starter_code: 字符串类型
    • estimated_date: 时间戳类型 (timestamp[ns])
    • prompt: 字符串类型
    • completion: 字符串类型
    • entry_point: 字符串类型
    • test: 字符串类型
    • input_output: 列表类型,包含inputoutput两个字符串字段
    • problem_typo_check: 字符串类型
    • problem_description_corrected: 字符串类型
  • 数据分片:

    • train:
      • 样本数: 2641
      • 大小: 80678841 字节
    • test:
      • 样本数: 228
      • 大小: 6441713 字节
  • 下载大小: 24270488 字节

  • 数据集总大小: 87120554 字节

数据来源与修正

  • 使用 o4-mini 工具修正了数据整理过程中的拼写错误或缺失信息。
  • 相关修正记录参考: https://github.com/newfacade/LeetCodeDataset/issues/1
搜集汇总
数据集介绍
main_image_url
构建方式
在编程教育领域,LeetCodeDataset_rectified数据集通过系统化的数据清洗流程构建而成。原始数据来源于知名在线编程平台LeetCode的题目库,采用o4-mini工具对题目描述中的拼写错误和缺失信息进行自动化校正,确保了数据质量。数据集包含2641条训练样本和228条测试样本,每条记录均包含题目ID、难度标签、问题描述、初始代码、测试用例等结构化字段,并通过时间戳标记题目发布时间,形成完整的编程题目知识体系。
使用方法
研究者可将该数据集应用于代码生成模型的训练与评估,通过prompt字段输入问题描述,模型需生成符合测试用例要求的completion代码。训练集与测试集的明确划分支持标准的机器学习流程,输入输出验证集可用于模型性能的自动化测试。对于教育技术研究,可利用难度标签和题型标签进行分层性能分析,而时间戳字段支持研究题目难度随时间演变的趋势。数据集的Apache 2.0许可允许自由的学术和商业用途。
背景与挑战
背景概述
LeetCodeDataset_rectified数据集作为编程教育领域的重要资源,由开源社区通过GitHub平台协作构建,旨在为算法与编程技能的自动化评估提供结构化数据支持。该数据集收录了来自知名在线编程平台LeetCode的2641道题目及其解决方案,涵盖字符串处理、动态规划等多类算法题型,每道题目均标注难度等级、标签分类及测试用例。数据集通过o4-mini工具对原始数据进行了拼写校正和缺失信息补全,显著提升了数据质量,为代码生成模型的训练与评估提供了标准化基准。其时间戳特征允许研究者追踪算法题目的历史演变,对计算机科学教育和技术面试准备具有重要参考价值。
当前挑战
该数据集面临的核心挑战体现在算法题目理解的语义复杂性上,不同难度等级的题目需要模型掌握从基础语法到高级算法设计的多层次知识。测试用例的覆盖全面性直接影响模型评估的可靠性,需平衡边界案例与常规案例的比例。数据构建过程中,题目描述的拼写错误和格式不一致问题通过开源工具进行了校正,但多模态编程问题(如需要结合流程图理解的题目)仍缺乏有效表示。此外,算法题目的动态更新特性要求数据集持续迭代维护,以保持与现实编程挑战的同步性。
常用场景
经典使用场景
在计算机科学教育领域,LeetCodeDataset_rectified数据集为编程能力评估与算法训练提供了标准化测试平台。其结构化的问题描述、测试用例及参考答案,使研究者能够系统性地分析不同难度级别编程题目的解决模式,特别适用于自动化代码生成模型的训练与验证。数据集涵盖动态规划、图论等多元算法标签,为构建领域适应的代码生成基准提供了丰富素材。
解决学术问题
该数据集有效解决了编程教育中缺乏标准化评估体系的难题,通过精确标注的问题难度分级和算法标签,支持教育者量化分析学习者的算法掌握程度。在自然语言处理领域,其问题描述与代码对的对应关系,为研究自然语言到编程语言的语义映射机制提供了实验基础,显著推进了智能编程辅助工具的研发进程。
实际应用
工业界的在线编程测评系统可基于该数据集构建智能诊断模块,通过比对用户提交代码与标准答案的差异,实现实时错误定位与修复建议生成。技术招聘平台利用其丰富的题目资源,可开发自适应难度调节的算法面试系统,精准评估候选人的代码能力与思维逻辑水平。
数据集最近研究
最新研究方向
在编程教育与自动化代码生成领域,LeetCodeDataset_rectified数据集因其丰富的结构化编程题目和详尽的测试用例而备受关注。当前研究聚焦于利用该数据集训练大规模语言模型,以提升其在算法理解、代码补全和错误检测方面的能力。随着人工智能辅助编程工具的兴起,该数据集为探索模型在复杂逻辑推理和多样化编程语言适应性的表现提供了重要基准。同时,研究者们正尝试结合强化学习技术,优化模型在动态编程环境中的交互能力,以应对实际开发中不断变化的需求。这些探索不仅推动了智能编程助手的发展,也为计算机科学教育中的个性化学习路径设计提供了新的思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作