leetcode-problems-dataset
收藏Hugging Face2025-05-20 更新2025-05-21 收录
下载链接:
https://huggingface.co/datasets/Alishohadaee/leetcode-problems-dataset
下载链接
链接失效反馈官方服务:
资源简介:
LeetCode编程问题数据集是一个包含LeetCode问题的全面集合,包括问题特征、元数据和说明。该数据集适用于编程面试准备、代码生成、问题评估、编程教育研究、编码辅助工具开发、编程问题模式分析以及解决方案效果研究等场景。
创建时间:
2025-05-18
原始信息汇总
LeetCode Problems Dataset 概述
基本信息
- 许可证: MIT
- 任务类别: 表格问答、文本分类、零样本分类、特征提取、文本生成等
- 语言: 英语
- 标签: 代码、AI、ML、NLP、LLM
- 规模: 1K<n<10K
数据集结构
- 默认配置:
- 特征:
user_queries(字符串),expected_output(字符串) - 训练集: 2823个样本,5,900,495字节
- 特征:
- 指令问题评估器配置:
- 特征:
user_queries(字符串),expected_output(字符串),__index_level_0__(int64) - 训练集: 2823个样本,5,923,079字节
- 特征:
- 问题评估器配置:
- 特征:
user_queries(字符串),expected_output(字符串),__index_level_0__(int64) - 训练集: 2823个样本,5,923,079字节
- 特征:
数据来源
- LeetCode网站: 所有问题内容、解决方案及相关材料
- LeetCodeHelp: 额外的解决方案代码和解释
数据集字段
基本信息
frontendQuestionId: LeetCode上的问题IDtitle: 问题标题titleSlug: URL友好版本标题difficulty: 问题难度级别(Easy, Medium, Hard)paidOnly: 是否为付费问题category: 问题类别(如“算法”)
URL和链接
url: 问题的LeetCode URLdescription_url: 问题描述的URLsolution_url: 问题解决方案的URLsolution_code_url: 解决方案代码的URL
问题内容
description: 完整的HTML格式问题描述solution: 详细的解决方案解释hints: 问题提示列表
代码解决方案
solution_code_python: Python解决方案代码solution_code_java: Java解决方案代码solution_code_cpp: C++解决方案代码
统计和元数据
acceptance_rate: 问题接受率topics: 相关主题/标签列表likes: 点赞数dislikes: 点踩数stats: 详细统计信息similar_questions: 相关问题列表
引用
bibtex @misc{leetcode_problems_dataset, author = {Seyedali Shohadaeolhosseini}, title = {LeetCode Problems Dataset}, year = {2025}, publisher = {Hugging Face}, journal = {Hugging Face Hub}, howpublished = {url{https://huggingface.co/datasets/Alishohadaee/leetcode-problems-dataset}} }
@misc{leetcode, author = {LeetCode}, title = {LeetCode - The Worlds Leading Online Programming Learning Platform}, year = {2025}, publisher = {LeetCode}, howpublished = {url{https://leetcode.com}} }
@misc{leetcodehelp, author = {LeetCodeHelp}, title = {LeetCode Solutions}, year = {2025}, publisher = {LeetCodeHelp}, howpublished = {url{https://leetcodehelp.github.io}} }
用途
- 编程面试准备的语言模型训练
- 代码生成和问题评估的模型微调
- 编程教育研究
- 编码辅助工具开发
- 编程问题模式分析
- 解决方案方法研究
- 基于描述的问题评估
版本信息
- 版本1.0.0 (初始版本)
- 日期: 2025年5月18日
- 描述: 包含全面问题数据和基于指令的评估对的初始数据集发布
搜集汇总
数据集介绍

构建方式
在编程教育研究领域,该数据集通过系统化采集LeetCode公开平台的编程题目构建而成。数据来源涵盖LeetCode官方网站的公开题目内容以及LeetCodeHelp平台的补充解析方案,采用网络爬虫技术获取题目描述、难度分级、解决方案等结构化信息。构建过程中严格遵循数据版权规范,仅收录非付费题目内容,最终形成包含2823个编程问题实例的训练集,并细分为三个不同配置版本以适应多样化研究需求。
使用方法
针对不同研究场景,数据集提供分层使用方案。通过HuggingFace datasets库可直接加载指令微调版本,快速构建编程问题理解与元推理任务。对于需要自定义预处理流程的研究者,原始数据文件以CSV和JSON格式提供完整字段访问。典型应用场景包括语言模型的编程面试训练、代码生成模型微调、编程教育模式分析等,研究者可根据具体需求选择相应配置版本开展实验。
背景与挑战
背景概述
随着人工智能在代码生成与理解领域的快速发展,编程问题数据集成为评估模型能力的重要资源。LeetCode Problems Dataset由Seyedali Shohadaeolhosseini于2025年构建,整合了LeetCode平台公开题目及LeetCodeHelp的解决方案,涵盖算法、数据结构等核心计算机科学主题。该数据集通过2823条指令化样本,为大型语言模型的微调与评估提供了结构化基础,显著推动了编程教育智能化与自动化代码生成技术的研究进程。
当前挑战
在编程问题求解领域,模型需克服复杂逻辑推理与多语言代码生成的精准对齐难题,同时应对题目描述中隐含约束条件的深度解析。数据集构建过程中面临多重挑战:原始数据需从异构来源爬取并统一格式化,涉及HTML描述解析与多编程语言解决方案的标准化处理;此外需规避版权风险,仅整合公开题目并确保解决方案的合规性,这对数据的完整性与法律边界提出了严格要求。
常用场景
经典使用场景
在编程教育与人工智能交叉领域,该数据集为语言模型的指令微调提供了标准化基准。其精心构建的用户查询与预期输出配对,能够系统评估模型对算法问题的理解深度与元推理能力。通过模拟真实编程面试场景,研究者可量化分析模型在问题解析、解决方案生成等维度的表现,为智能编程助手的开发奠定数据基础。
解决学术问题
该数据集有效缓解了代码智能研究领域高质量标注数据稀缺的困境。通过整合LeetCode平台经过实践验证的算法问题与解决方案,为程序语义理解、代码自动生成等研究方向提供了可靠评估基准。其多语言解决方案的并行呈现,更促进了跨编程语言的通用代码能力研究,推动了编程教育智能化的发展进程。
实际应用
在工业界实践中,该数据集已成为开发智能编程辅助工具的核心资源。技术企业依托其构建的代码自动补全系统,能显著提升开发者的算法实现效率。教育科技公司则利用其开发自适应学习平台,通过分析用户解题轨迹与数据集标准方案的差异,实现个性化的编程能力评估与提升建议。
数据集最近研究
最新研究方向
在编程教育与人工智能交叉领域,leetcode-problems-dataset正推动代码生成与理解的前沿探索。当前研究聚焦于利用该数据集训练大语言模型进行智能编程助手开发,通过问题描述与解决方案的配对数据优化模型对算法逻辑的解析能力。随着自动化编程工具需求的增长,该数据集支持零样本分类与文本生成任务,助力模型在未见过的问题类型中泛化推理。其结构化特征为教育技术研究提供了丰富样本,促进了编程能力评估系统的创新,对提升计算机科学教育效率具有深远意义。
以上内容由遇见数据集搜集并总结生成



