LeetCode-O

Name: LeetCode-O
Creator: HKUST NLP Group
Published: 2025-05-06 12:00:59
License: 暂无描述

Hugging Face2025-05-06 更新2025-05-07 收录

下载链接：

https://huggingface.co/datasets/hkust-nlp/LeetCode-O

下载链接

链接失效反馈

官方服务：

资源简介：

LeetCode-O数据集，用于评估代码语言模型在LeetCode问题上的性能。数据集包含多个难度级别的问题，分为英文和中文两种语言版本。主要评估指标为整体问题准确率（Overall_Question_Acc）。

The LeetCode-O dataset is designed for evaluating the performance of code language models on LeetCode problems. It includes problems across multiple difficulty levels, available in both English and Chinese versions. The primary evaluation metric is Overall Question Accuracy (Overall_Question_Acc).

提供机构：

HKUST NLP Group

创建时间：

2025-05-06

原始信息汇总

LeetCode-O 数据集概述

数据集基本信息

数据集名称: LeetCode-O
提出论文: CodeI/O (Arxiv 2502.07316)
数据文件: leetcode.jsonl
示例预测文件: prediction.jsonl (gpt-4.1-nano)

数据集用途

用途: 用于评估大型语言模型(LLM)在LeetCode题目上的表现
评估方式:
- 需在leetcode.jsonl的每一行添加output字段，记录LLM的输出
- 使用evaluate.py计算得分

评估指标

主要指标: Overall_Question_Acc (总体问题准确率)
详细指标:
- 按难度分类:
  - Difficulty_Easy_Example_Acc
  - Difficulty_Easy_Question_Acc
  - Difficulty_Hard_Example_Acc
  - Difficulty_Hard_Question_Acc
  - Difficulty_Medium_Example_Acc
  - Difficulty_Medium_Question_Acc
- 按语言分类:
  - Lang_EN_Example_Acc
  - Lang_EN_Question_Acc
  - Lang_ZH_Example_Acc
  - Lang_ZH_Question_Acc
- 其他指标:
  - No_Answer (未回答率)
  - Overall_Example_Acc (总体示例准确率)

示例评估结果

json { "Difficulty_Easy_Example_Acc": 0.8931972789115646, "Difficulty_Easy_Question_Acc": 0.7046979865771812, "Difficulty_Hard_Example_Acc": 0.6502695417789758, "Difficulty_Hard_Question_Acc": 0.2857142857142857, "Difficulty_Medium_Example_Acc": 0.7582191780821917, "Difficulty_Medium_Question_Acc": 0.46179401993355484, "Lang_EN_Example_Acc": 0.7933846850928863, "Lang_EN_Question_Acc": 0.6311111111111111, "Lang_ZH_Example_Acc": 0.7403715450838242, "Lang_ZH_Question_Acc": 0.56, "No_Answer": 0.001359311282283643, "Overall_Example_Acc": 0.7668781150883552, "Overall_Question_Acc": 0.48333333333333334 }

搜集汇总

数据集介绍

构建方式

LeetCode-O数据集源自CodeI/O研究项目，其构建过程基于LeetCode编程平台的实际题目，旨在评估大型语言模型在解决算法问题时的表现。数据集以jsonl格式存储，每条记录包含题目描述、难度分级及语言版本等关键信息，通过系统化采集和结构化处理确保数据的全面性和代表性。构建过程中特别注重题目难度和语言分布的平衡，为模型评估提供了多维度的基准标准。

使用方法

使用该数据集时需将模型输出按照prediction.jsonl格式进行组织，即在原始数据基础上添加模型生成的output字段。评估过程通过执行evaluate.py脚本实现，该脚本自动计算包括总体准确率、分难度准确率及分语言准确率在内的多项指标。研究者可通过对比不同模型在各细分指标上的表现，系统评估模型在算法问题解决方面的优劣势。

背景与挑战

背景概述

LeetCode-O数据集由CodeI/O研究团队于2024年提出，作为评估大型语言模型编程能力的重要基准。该数据集基于国际知名编程竞赛平台LeetCode的题目构建，旨在系统测试模型在算法问题求解方面的表现。研究团队通过精心设计的评估框架，针对不同难度层级（简单、中等、困难）和语言版本（英文、中文）的编程题目，构建了多维度的性能指标。该数据集的推出为编程教育智能化、自动代码生成等领域的研究提供了标准化评估工具，推动了人工智能与计算机科学教育的交叉研究。

当前挑战

LeetCode-O数据集面临的核心挑战体现在算法问题求解的复杂性上。不同难度层级的题目要求模型具备从基础语法掌握到高级算法设计的递进能力，特别是对递归、动态规划等复杂编程范式的理解。数据构建过程中需平衡题目代表性，确保涵盖各类数据结构和算法类型，同时处理多语言题面带来的语义理解差异。评估指标设计需兼顾示例验证的准确性和完整问题求解的正确率，这对模型的代码生成能力与逻辑推理能力提出了双重考验。

常用场景

经典使用场景

在编程语言模型评估领域，LeetCode-O数据集作为CodeI/O论文提出的基准测试工具，主要用于衡量大型语言模型在解决实际编程问题时的表现。该数据集通过模拟LeetCode平台上的编程题目，覆盖了不同难度级别和语言版本的题目，为研究者提供了一个标准化的评估框架。模型在该数据集上的表现能够直观反映其代码生成和理解能力。

解决学术问题

LeetCode-O数据集有效解决了编程语言模型评估中缺乏标准化基准的问题。通过提供多样化的编程题目和精确的评估指标，该数据集使研究者能够系统性地比较不同模型在代码生成任务上的性能。其细粒度的难度分类和语言分类指标，为探究模型在不同场景下的能力边界提供了重要依据，推动了编程语言模型领域的量化研究进展。

实际应用

在实际应用中，LeetCode-O数据集被广泛用于各类编程辅助工具的开发和优化。教育科技公司利用该数据集评估其智能编程助手的解题能力；企业招聘平台则基于该数据集的评估结果，筛选适合技术面试自动化的语言模型。数据集提供的多维度评估指标，为这些应用场景中的模型选型提供了可靠参考。

数据集最近研究