code_generation_lite
收藏Hugging Face2025-08-15 更新2025-08-16 收录
下载链接:
https://huggingface.co/datasets/lighteval/code_generation_lite
下载链接
链接失效反馈官方服务:
资源简介:
LiveCodeBench是一个用于全面和纯净地评估大型语言模型在代码生成方面的数据集。它包含了问题标题、内容、平台、问题ID、比赛ID、日期、起始代码、难度、公共和私有测试案例以及元数据等特征。数据集提供了多个版本,每个版本包含不同数量的问题示例和文件大小。此外,README还提供了数据集的主页、GitHub存储库、排行榜和相关论文的链接。
创建时间:
2025-08-14
原始信息汇总
LiveCodeBench 数据集概述
基本信息
- 名称: LiveCodeBench
- 许可证: CC
- 标签: code, code generation
- 数据集大小: <1K (n<1K)
- 主页: https://livecodebench.github.io/
- GitHub仓库: https://github.com/LiveCodeBench/LiveCodeBench
- 排行榜: https://livecodebench.github.io/leaderboard.html
- 论文: https://arxiv.org/abs/2403.07974
数据集配置
数据集包含多个配置版本,主要分为两类:
- release系列: release_latest, release_v1 到 release_v6
- 版本组合系列: v1 到 v6 及其组合版本(如v1_v2, v2_v3等)
主要特征
所有配置版本均包含以下特征:
question_title: 字符串类型question_content: 字符串类型platform: 字符串类型question_id: 字符串类型contest_id: 字符串类型contest_date: 字符串类型starter_code: 字符串类型difficulty: 字符串类型public_test_cases: 字符串类型private_test_cases: 字符串类型metadata: 字符串类型
数据统计
release_latest (默认配置)
- 测试集:
- 样本数: 1055
- 大小: 4485682004 字节
- 下载大小: 4334452255 字节
其他代表性配置示例
- release_v1:
- 样本数: 400
- 大小: 1252491529 字节
- v2_v6:
- 样本数: 655
- 大小: 3233190475 字节
- v6:
- 样本数: 175
- 大小: 134251183 字节
数据文件结构
每个配置版本的数据文件路径遵循以下模式:
{config_name}/test-*(例如:release_latest/test-*,v1_v2/test-*)
用途
该数据集专注于代码生成任务的全面和无污染评估,适用于大型语言模型在代码生成领域的性能测试。
搜集汇总
数据集介绍

构建方式
在代码生成领域,LiveCodeBench数据集通过系统化采集多平台编程竞赛题目构建而成。该数据集采用版本化架构设计,从v1到v6共六个迭代版本逐步扩充,每个版本均包含题目标题、内容描述、平台来源、难度分级等结构化字段,并特别收录了初始代码模板和公开/私有测试用例,确保评估任务的完整性。数据采集过程注重时间维度的连续性,通过记录竞赛日期实现纵向追踪,最终形成包含1055个样本的综合性基准。
使用方法
使用该数据集时,研究者可通过HuggingFace平台加载特定版本配置,默认加载最新的release_latest版本。数据集采用标准的test分割,支持直接用于模型生成能力的零样本评估。评估时可利用提供的starter_code作为生成基础,通过public_test_cases进行初步验证,最终以private_test_cases作为严谨的评判标准。对于时序分析需求,可通过contest_date字段筛选特定时间段的问题子集,不同版本间的组合配置(如v1_v3)支持自定义评估范围。
背景与挑战
背景概述
LiveCodeBench是一个专注于代码生成领域的综合性评估数据集,由相关研究团队于2024年推出。该数据集旨在为大型语言模型在代码生成任务上的性能提供全面且无污染的评估基准。数据集涵盖了多种编程竞赛平台的题目,包括问题描述、起始代码、测试用例等丰富信息,并按照难度级别进行分类。通过持续更新的版本迭代,LiveCodeBench已建立起包含千余个样本的规模,成为代码生成领域具有影响力的评估工具。其多维度评估框架为研究社区提供了分析模型代码能力的标准化平台。
当前挑战
LiveCodeBench面临的核心挑战主要体现在两个方面:在领域问题层面,代码生成任务需要模型同时理解自然语言描述和编程语法规则,而不同难度级别和编程语言的问题对模型的泛化能力提出了更高要求;在数据集构建层面,如何确保测试用例的全面性和无污染性是一大难题,同时维护多版本数据的一致性和兼容性也增加了复杂性。此外,编程竞赛题目的动态更新特性要求数据集必须建立可持续的迭代机制,这对数据采集和标注流程提出了严峻考验。
常用场景
经典使用场景
在编程竞赛和算法研究领域,LiveCodeBench数据集以其丰富的题目内容和测试用例成为评估代码生成模型性能的黄金标准。该数据集通过捕捉不同难度级别的编程问题,为研究者提供了衡量模型在真实竞赛环境下代码生成能力的基准平台。从简单的字符串操作到复杂的动态规划问题,数据集的层次化结构能够全面检验模型的算法理解和实现水平。
解决学术问题
该数据集有效解决了代码生成领域缺乏动态评估框架的学术困境。通过整合多平台竞赛题目及其测试用例,研究者能够系统性地分析模型在代码正确性、鲁棒性和创新性等方面的表现。特别是其定期更新的特性,使得追踪模型在时间维度上的进步成为可能,这对于理解大语言模型在编程领域的进化规律具有重要价值。
实际应用
在实际开发场景中,该数据集为智能编程助手的优化提供了关键训练素材。技术团队可利用其丰富的题目-解决方案对来提升模型的问题理解能力,而精确的测试用例则能验证生成代码的可靠性。教育科技公司正基于此类数据开发自适应学习系统,通过分析学生在不同难度题目上的表现,提供个性化的编程训练方案。
数据集最近研究
最新研究方向
在代码生成领域,LiveCodeBench数据集正成为评估大型语言模型性能的重要基准。该数据集通过整合多平台编程竞赛题目,构建了包含问题描述、测试用例和难度分级的全面评估体系。最新研究聚焦于动态评估框架的开发,旨在解决模型训练数据污染导致的评估偏差问题。通过定期更新题目库和建立严格的隔离机制,该数据集为衡量模型真实编码能力提供了可靠标准。当前工作还探索了跨语言泛化性评估,以及模型在时间维度上的性能演进分析,这些方向对于理解大语言模型在复杂编程任务中的表现具有重要意义。
以上内容由遇见数据集搜集并总结生成



