five

leetcode-solutions

收藏
Hugging Face2026-05-18 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/tkeskin/leetcode-solutions
下载链接
链接失效反馈
官方服务:
资源简介:
LeetCode Solutions数据集是一个开源数据集,包含LeetCode编程问题的解决方案,适用于代码生成、代码翻译和语言模型微调等任务。数据集提供两种配置:base和instruct。base配置以每行一个LeetCode问题的形式组织,包含问题ID(problem_id)、问题标题(title)以及C++、Java、Python、SQL和TypeScript五种编程语言的解决方案列(分别为cpp、java、python、sql、typescript),当某语言无对应解决方案时,该列值为null。各语言解决方案数量大致为:C++约3,495个,Java约3,371个,Python约3,169个,SQL约307个,TypeScript约69个。instruct配置是从base配置派生出的指令调优变体,专门用于代码翻译任务的微调,每行包含一个指令调优三元组:自然语言指令(instruction)、源代码(input)和目标代码(output),支持C++、Java和Python之间的双向翻译(如Python→Java和Java→Python作为独立行)。数据集来源于walkccc/LeetCode仓库(MIT许可证),使用tkeskin/llm-fine-tune工具构建,语言为英语,整体许可证为gpl-3.0。

The LeetCode Solutions dataset is an open-source collection of solutions to LeetCode programming problems, suitable for tasks such as code generation, code translation, and fine-tuning language models. The dataset includes two configurations: base and instruct. The base configuration is organized with one LeetCode problem per row, containing the problem ID (problem_id), problem title (title), and solution columns for five programming languages: C++, Java, Python, SQL, and TypeScript (with columns cpp, java, python, sql, typescript respectively). When no solution is available for a language, the column value is null. The approximate number of solutions per language is: C++ about 3,495, Java about 3,371, Python about 3,169, SQL about 307, and TypeScript about 69. The instruct configuration is an instruction-tuning variant derived from the base configuration, specifically designed for fine-tuning on code translation tasks. Each row contains an instruction-tuning triple: natural language instruction (instruction), source code (input), and target code (output), supporting bidirectional translation between C++, Java, and Python (e.g., Python→Java and Java→Python as separate rows). The dataset is sourced from the walkccc/LeetCode repository (under MIT license), built using the tkeskin/llm-fine-tune tool, with English as the language, and the overall license is gpl-3.0.
创建时间:
2026-05-14
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自GitHub上由walkccc维护的LeetCode解决方案仓库,内容涵盖C++、Java、Python、SQL及TypeScript等多语言编程题解。在构建过程中,项目依托tkeskin/llm-fine-tune工具链,将原始代码资源转化为结构化数据集。基础配置(base)以每道LeetCode题目为单元,各语言列在无对应解法时以空值填充,从而形成完整的题目-题解映射表。指令微调配置(instruct)则从基础配置中提取定向代码翻译对,涵盖Python至Java、Java至Python等双向变换,每条记录包含自然语言指令、输入源码与输出目标代码三个字段,专为大模型的指令微调任务设计。
特点
该数据集最显著的特征在于其多粒度结构:基础配置提供跨5种编程语言的独立题解集合,其中C++题解覆盖约3495题,Python约3169题,SQL与TypeScript分别覆盖307题和69题,呈现出语言覆盖面的差异性。指令微调配置则通过生成方向性代码翻译对,将同一题目的不同语言解法组织为监督学习样本,并随机变换自然语言指令的表述方式,从而增强模型对多样化指令的鲁棒性。数据集采用Apache Parquet格式存储,兼具高效的列式读取性能与压缩优势,为大规模实验提供便利。
使用方法
用户可通过HuggingFace Datasets库直接加载该数据集,支持按配置名参数选择base或instruct子集。基础配置适用于多语言代码检索、跨语言解法对比及代码生成任务的预训练或评估,调用load_dataset('tkeskin/leetcode-solutions', 'base')即可获取包含问题ID、标题及5种语言源码字段的DataFrame。指令微调配置则专为代码翻译与指令跟随任务设计,调用load_dataset('tkeskin/leetcode-solutions', 'instruct')可获得包含instruction、input与output三列的样本,可直接用于序列到序列模型的训练与评估。由于数据采用标准化表格格式,用户亦可便捷地将数据导出为Pandas DataFrame进行自定义处理。
背景与挑战
背景概述
LeetCode Solutions 数据集于2024年由研究者 tkeskin 基于 walkccc 维护的 LeetCode 解题库构建而成,旨在为编程语言模型提供高质量的多语言代码解决方案资源。该数据集整合了 C++、Java、Python、SQL 及 TypeScript 五种语言的解题代码,覆盖超过 3,000 道 LeetCode 题目,并特别设计了指令微调变体(instruct config),通过生成跨语言代码翻译对,为自然语言到代码的转换研究提供了标准化训练数据。作为开源社区与学术研究的桥梁,该数据集不仅服务于代码生成模型的微调与评估,还推动了多语言编程能力、算法理解及指令遵循等方向的研究,在代码智能领域具有重要的基准价值。
当前挑战
该数据集所面临的挑战包括:第一,在领域问题层面,LeetCode 题目虽覆盖经典算法与数据结构,但解决方案倾向于强调正确性而非多样性,导致模型可能过度拟合特定解题模式,难以泛化至真实场景下的复杂编程任务;第二,在构建过程中,由于跨语言解决方案数量不均衡(如 SQL 仅 307 题,TypeScript 仅 69 题),数据稀疏性可能影响多语言代码翻译模型的训练效果;此外,自然语言指令的多样性有限,且代码对之间缺乏显式的语义对齐标注,使得模型在处理非规范表述或异构代码结构时性能受限。
常用场景
经典使用场景
在编程教育与算法研究领域,LeetCode Solutions数据集最为经典的使用场景是作为多语言编程题解的资源库,为开发者提供C++、Java、Python、SQL及TypeScript五种语言的标准化解题代码。研究者与学习者可基于该数据集进行算法题解的跨语言对比分析,探索不同编程范式在相同问题上的实现差异。同时,该数据集的instruct配置将原始题解转化为指令微调三元组,为代码生成与翻译模型的训练提供了高质量监督数据,成为代码智能领域评估模型多语言编程能力的标杆性基准。
解决学术问题
该数据集有效解决了代码智能研究中高质量、多语言并行编程数据稀缺的学术难题。传统代码数据集往往局限于单一语言,难以支撑跨语言代码生成、翻译及迁移学习等前沿课题的深入研究。LeetCode Solutions提供了超过3000道编程题的多语言解决方案,覆盖主流编程语言,使得研究者能够系统性地探究代码语义等价性、语言间语法映射规律以及模型在多语言场景下的泛化能力。其instruct版本进一步将原始代码转化为自然语言指令驱动的细粒度翻译任务,为指令微调范式下代码能力增强提供了关键数据支撑,显著推动了代码大语言模型在多语言编程任务上的性能突破。
衍生相关工作
基于LeetCode Solutions数据集,学术界与工业界衍生出一系列具有影响力的经典工作。在代码生成领域,研究者利用该数据集的instruct配置训练了专门的代码翻译模型,如CodeT5与CodeBERT的变体,在跨语言代码转换任务上取得了显著成效。此外,该数据集被用于评估和增强PaLM、GPT系列等大型语言模型的编程能力,催生了众多针对算法解题场景的指令微调方法。在数据增强方面,后续工作通过扩展该数据集的结构化特征,生成了涵盖更多编程语言和题型的衍生版本,推动了多语言代码知识图谱的构建,成为代码智能领域持续创新的重要基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作