five

livecodebench

收藏
Hugging Face2026-01-20 更新2026-01-22 收录
下载链接:
https://huggingface.co/datasets/tonychenxyz/livecodebench
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含为Code-LLaVA评估准备的LiveCodeBench代码生成基准测试。它提供了两种配置:'memwrap'(带有内存标记)和'plain'(无内存标记),用于不同的测试场景。数据集包含来自LeetCode、AtCoder和Codeforces的1055个问题,覆盖了Easy、Medium和Hard三种难度级别。每个问题包含提示字符串、类别信息和额外信息,如问题ID、难度、平台和起始代码。数据集还提供了内置的评分功能,用于验证代码的语法有效性和包含起始代码的情况。
创建时间:
2026-01-06
原始信息汇总

LiveCodeBench for Code-LLaVA 数据集概述

数据集基本信息

  • 数据集名称: LiveCodeBench for Code-LLaVA
  • 托管地址: https://huggingface.co/datasets/tonychenxyz/livecodebench
  • 许可协议: MIT
  • 主要任务类别: 文本生成
  • 语言: 英语
  • 标签: 代码生成、编程、基准测试、livecodebench
  • 数据规模: 1K<n<10K

数据来源与背景

数据集结构

数据集提供两种配置:

配置一:memwrap

  • 描述: 包含用于Code-LLaVA内存压缩的<|memory_start|> / <|memory_end|>标记的问题。
  • 数据文件路径: memwrap/test-*
  • 特征字段:
    • prompt: 字符串类型,聊天模板化的提示字符串。
    • category: 字符串类型,格式为{variant}/livecodebench/{difficulty}(例如memwrap/livecodebench/medium)。
    • extra_info: 结构体,包含:
      • ground_truth: 结构体,包含question_idquestion_titledifficultyplatformcontest_idstarter_code字段。
      • scoring_function: 字符串类型。
      • question_id: 字符串类型。
      • variant: 字符串类型。
  • 数据分割: 仅测试集
    • 样本数量: 1055
    • 数据集大小: 2122314字节
    • 下载大小: 751019字节

配置二:plain

  • 描述: 不包含内存标记的相同问题集(基线版本)。
  • 数据文件路径: plain/test-*
  • 特征字段:
    • prompt: 字符串类型,聊天模板化的提示字符串。
    • category: 字符串类型,格式为{variant}/livecodebench/{difficulty}
    • extra_info: 结构体,包含:
      • ground_truth: 结构体,包含contest_iddifficultyplatformquestion_idquestion_titlestarter_code字段。
      • question_id: 字符串类型。
      • scoring_function: 字符串类型。
      • variant: 字符串类型。
  • 数据分割: 仅测试集
    • 样本数量: 1055
    • 数据集大小: 2085397字节
    • 下载大小: 748524字节

内置评估功能

  • 评分函数: livecodebench_code
  • 基本验证项:
    • has_code: 响应是否包含代码。
    • syntax_valid: 代码语法是否有效(Python)。
    • includes_starter: 是否包含起始代码签名。

使用方式

可通过Hugging Face datasets库加载: python from datasets import load_dataset ds = load_dataset("tonychenxyz/livecodebench", "memwrap", split="test")

可按难度过滤数据: python medium = ds.filter(lambda x: "medium" in x["category"])

完整评估说明

对于pass@k评估,需将生成的代码导出并使用LiveCodeBench的官方评估器: bash python -m lcb_runner.runner.custom_evaluator --custom_output_file predictions.json

引用格式

bibtex @article{jain2024livecodebench, title={LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code}, author={Jain, Naman and Han, King and Gu, Alex and Li, Wen-Ding and Yan, Fanjia and Zhang, Tianjun and Wang, Sida and Solar-Lezama, Armando and Sen, Koushik and Stoica, Ion}, journal={arXiv preprint arXiv:2403.07974}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
在代码生成领域,LiveCodeBench数据集通过系统化整合LeetCode、AtCoder和Codeforces三大编程竞赛平台自2023年5月至2025年4月期间的1055道题目构建而成。其构建过程注重保持题目的原始结构和时序特征,确保评估的全面性与时效性。数据集提供两种配置变体:memwrap版本嵌入了专用的内存标记以支持模型内存压缩机制,而plain版本则保留原始问题格式作为基线对照,这种设计为代码生成模型的性能评估提供了多维度的分析框架。
特点
该数据集的核心特点在于其全面覆盖了不同难度层级的编程问题,涵盖简单、中等与困难三个等级,从而能够细致评估模型在各种复杂场景下的代码生成能力。数据集结构设计严谨,每个样本均包含完整的提示信息、分类标签及丰富的元数据,如题目来源平台、难度标识和初始代码框架等。特别值得一提的是,数据集通过内置的评分函数livecodebench_code实现了对生成代码的基础验证,包括代码存在性、语法正确性及初始代码包含性等多维度检查,为模型性能的初步评估提供了可靠工具。
使用方法
使用LiveCodeBench进行模型评估时,研究人员可通过Hugging Face的datasets库便捷加载数据集,并依据难度等级或配置变体进行灵活筛选。对于深入的性能分析,建议将模型生成的代码输出转换为特定格式,并利用LiveCodeBench官方评估器进行严格的pass@k指标计算。这种评估流程不仅能够验证代码的语法正确性,更能全面考察模型在真实编程场景中的问题解决能力,为代码生成模型的迭代优化提供实证依据。
背景与挑战
背景概述
LiveCodeBench数据集于2024年由Naman Jain、King Han、Alex Gu等研究人员联合发布,其核心研究问题聚焦于为大型语言模型在代码生成任务上提供全面且无污染的评估基准。该数据集整合了LeetCode、AtCoder和Codeforces三大编程竞赛平台自2023年5月至2025年4月间的1055道编程题目,涵盖易、中、难三种难度级别,旨在通过动态更新的题目内容避免模型在训练数据上的记忆污染,从而更准确地反映模型的实际代码生成能力。作为代码生成领域的重要评测工具,LiveCodeBench推动了模型评估方法向更严谨、更贴近现实编程场景的方向发展,对提升代码智能系统的可靠性与实用性具有显著影响力。
当前挑战
在代码生成领域,模型评估长期面临数据污染与静态基准过时的挑战,即模型可能在训练阶段已接触过评测题目,导致性能评估失真。LiveCodeBench通过持续收集最新编程竞赛题目构建动态基准,旨在解决这一核心问题,但其构建过程需克服多平台数据格式统一、题目难度客观划分以及评测自动化实现等困难。具体而言,数据集需从不同竞赛平台提取并标准化题目描述、测试用例及评分函数,同时确保题目难度标签的准确性与一致性,并设计可靠的自动化评测流程以验证生成代码的功能正确性,这些挑战共同构成了该数据集在推动代码生成模型公平、有效评估方面的关键难点。
常用场景
经典使用场景
在代码生成领域,LiveCodeBench数据集为评估大型语言模型的编程能力提供了标准化基准。其经典使用场景集中于对模型在解决实际编程问题时的性能进行系统性测试,涵盖从简单算法到复杂数据结构的多样化题目。研究人员通过该数据集能够量化模型在代码生成任务中的准确率与效率,从而推动模型优化与迭代。
实际应用
在实际应用层面,LiveCodeBench被广泛集成于代码辅助工具与智能编程环境的开发流程中。它帮助工程师验证模型在生成可执行代码、遵循编程规范及适配不同难度需求方面的可靠性。此外,该数据集支持教育平台构建自适应学习系统,为学生提供个性化的编程练习与即时反馈,显著提升编程技能的训练效果。
衍生相关工作
围绕LiveCodeBench,学术界衍生出多项经典研究工作。例如,基于其评估框架开发的Code-LLaVA模型,通过内存压缩技术优化了长代码生成任务;同时,众多研究利用该数据集进行了代码生成模型的鲁棒性分析与跨平台泛化能力测试。这些工作共同推动了代码智能领域的理论进展与技术革新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作