leetcode-solutions

Hugging Face2026-05-18 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/tkeskin/leetcode-solutions

下载链接

链接失效反馈

官方服务：

资源简介：

LeetCode Solutions数据集是一个开源数据集，包含LeetCode编程问题的解决方案，适用于代码生成、代码翻译和语言模型微调等任务。数据集提供两种配置：base和instruct。base配置以每行一个LeetCode问题的形式组织，包含问题ID（problem_id）、问题标题（title）以及C++、Java、Python、SQL和TypeScript五种编程语言的解决方案列（分别为cpp、java、python、sql、typescript），当某语言无对应解决方案时，该列值为null。各语言解决方案数量大致为：C++约3,495个，Java约3,371个，Python约3,169个，SQL约307个，TypeScript约69个。instruct配置是从base配置派生出的指令调优变体，专门用于代码翻译任务的微调，每行包含一个指令调优三元组：自然语言指令（instruction）、源代码（input）和目标代码（output），支持C++、Java和Python之间的双向翻译（如Python→Java和Java→Python作为独立行）。数据集来源于walkccc/LeetCode仓库（MIT许可证），使用tkeskin/llm-fine-tune工具构建，语言为英语，整体许可证为gpl-3.0。

LeetCode Solutions Dataset is an open-source dataset containing solutions to LeetCode programming problems, which is applicable to tasks such as code generation, code translation, and language model fine-tuning. The dataset provides two configurations: base and instruct. The base configuration organizes data as one LeetCode problem per line, including the problem ID (problem_id), problem title (title), and solution columns for five programming languages: C++, Java, Python, SQL, and TypeScript (with column names cpp, java, python, sql, typescript respectively). If a certain language has no corresponding solution, the value of that column is null. The approximate number of solutions for each language is: around 3,495 for C++, about 3,371 for Java, roughly 3,169 for Python, approximately 307 for SQL, and about 69 for TypeScript. The instruct configuration is an instruction-tuned variant derived from the base configuration, specifically intended for fine-tuning on code translation tasks. Each line contains an instruction-tuning triplet: natural language instruction (instruction), source code (input), and target code (output), supporting bidirectional translation between C++, Java and Python (e.g., Python→Java and Java→Python are presented as separate rows). The dataset is sourced from the walkccc/LeetCode repository under the MIT License, and constructed using the tkeskin/llm-fine-tune tool. It is in English, and the overall license is GPL-3.0.

创建时间：

2026-05-14

搜集汇总

数据集介绍

构建方式

该数据集源自GitHub上由walkccc维护的LeetCode解决方案仓库，内容涵盖C++、Java、Python、SQL及TypeScript等多语言编程题解。在构建过程中，项目依托tkeskin/llm-fine-tune工具链，将原始代码资源转化为结构化数据集。基础配置（base）以每道LeetCode题目为单元，各语言列在无对应解法时以空值填充，从而形成完整的题目-题解映射表。指令微调配置（instruct）则从基础配置中提取定向代码翻译对，涵盖Python至Java、Java至Python等双向变换，每条记录包含自然语言指令、输入源码与输出目标代码三个字段，专为大模型的指令微调任务设计。

特点

该数据集最显著的特征在于其多粒度结构：基础配置提供跨5种编程语言的独立题解集合，其中C++题解覆盖约3495题，Python约3169题，SQL与TypeScript分别覆盖307题和69题，呈现出语言覆盖面的差异性。指令微调配置则通过生成方向性代码翻译对，将同一题目的不同语言解法组织为监督学习样本，并随机变换自然语言指令的表述方式，从而增强模型对多样化指令的鲁棒性。数据集采用Apache Parquet格式存储，兼具高效的列式读取性能与压缩优势，为大规模实验提供便利。

使用方法

用户可通过HuggingFace Datasets库直接加载该数据集，支持按配置名参数选择base或instruct子集。基础配置适用于多语言代码检索、跨语言解法对比及代码生成任务的预训练或评估，调用load_dataset('tkeskin/leetcode-solutions', 'base')即可获取包含问题ID、标题及5种语言源码字段的DataFrame。指令微调配置则专为代码翻译与指令跟随任务设计，调用load_dataset('tkeskin/leetcode-solutions', 'instruct')可获得包含instruction、input与output三列的样本，可直接用于序列到序列模型的训练与评估。由于数据采用标准化表格格式，用户亦可便捷地将数据导出为Pandas DataFrame进行自定义处理。

背景与挑战

背景概述

LeetCode Solutions 数据集于2024年由研究者 tkeskin 基于 walkccc 维护的 LeetCode 解题库构建而成，旨在为编程语言模型提供高质量的多语言代码解决方案资源。该数据集整合了 C++、Java、Python、SQL 及 TypeScript 五种语言的解题代码，覆盖超过 3,000 道 LeetCode 题目，并特别设计了指令微调变体（instruct config），通过生成跨语言代码翻译对，为自然语言到代码的转换研究提供了标准化训练数据。作为开源社区与学术研究的桥梁，该数据集不仅服务于代码生成模型的微调与评估，还推动了多语言编程能力、算法理解及指令遵循等方向的研究，在代码智能领域具有重要的基准价值。

当前挑战

该数据集所面临的挑战包括：第一，在领域问题层面，LeetCode 题目虽覆盖经典算法与数据结构，但解决方案倾向于强调正确性而非多样性，导致模型可能过度拟合特定解题模式，难以泛化至真实场景下的复杂编程任务；第二，在构建过程中，由于跨语言解决方案数量不均衡（如 SQL 仅 307 题，TypeScript 仅 69 题），数据稀疏性可能影响多语言代码翻译模型的训练效果；此外，自然语言指令的多样性有限，且代码对之间缺乏显式的语义对齐标注，使得模型在处理非规范表述或异构代码结构时性能受限。

常用场景

经典使用场景

在编程教育与算法研究领域，LeetCode Solutions数据集最为经典的使用场景是作为多语言编程题解的资源库，为开发者提供C++、Java、Python、SQL及TypeScript五种语言的标准化解题代码。研究者与学习者可基于该数据集进行算法题解的跨语言对比分析，探索不同编程范式在相同问题上的实现差异。同时，该数据集的instruct配置将原始题解转化为指令微调三元组，为代码生成与翻译模型的训练提供了高质量监督数据，成为代码智能领域评估模型多语言编程能力的标杆性基准。

解决学术问题

该数据集有效解决了代码智能研究中高质量、多语言并行编程数据稀缺的学术难题。传统代码数据集往往局限于单一语言，难以支撑跨语言代码生成、翻译及迁移学习等前沿课题的深入研究。LeetCode Solutions提供了超过3000道编程题的多语言解决方案，覆盖主流编程语言，使得研究者能够系统性地探究代码语义等价性、语言间语法映射规律以及模型在多语言场景下的泛化能力。其instruct版本进一步将原始代码转化为自然语言指令驱动的细粒度翻译任务，为指令微调范式下代码能力增强提供了关键数据支撑，显著推动了代码大语言模型在多语言编程任务上的性能突破。

衍生相关工作

基于LeetCode Solutions数据集，学术界与工业界衍生出一系列具有影响力的经典工作。在代码生成领域，研究者利用该数据集的instruct配置训练了专门的代码翻译模型，如CodeT5与CodeBERT的变体，在跨语言代码转换任务上取得了显著成效。此外，该数据集被用于评估和增强PaLM、GPT系列等大型语言模型的编程能力，催生了众多针对算法解题场景的指令微调方法。在数据增强方面，后续工作通过扩展该数据集的结构化特征，生成了涵盖更多编程语言和题型的衍生版本，推动了多语言代码知识图谱的构建，成为代码智能领域持续创新的重要基石。

以上内容由遇见数据集搜集并总结生成