five

JetBrains-Research/lca-results

收藏
Hugging Face2025-05-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/JetBrains-Research/lca-results
下载链接
链接失效反馈
官方服务:
资源简介:
这些是来自Long Code Arena基准测试套件的原始结果以及相应的模型预测。数据集包括六个基准测试:库基础代码生成、CI构建修复、项目级代码补全、提交消息生成、错误定位和模块摘要。用户可以通过`subset`下拉菜单选择与这些基准测试相关的必要数据。

These are the raw results from the Long Code Arena benchmark suite, as well as the corresponding model predictions. The dataset includes six benchmarks: library-based code generation, CI builds repair, project-level code completion, commit message generation, bug localization, and module summarization. Users can select the necessary data relating to these benchmarks via the `subset` dropdown menu.
提供机构:
JetBrains-Research
原始信息汇总

数据集概述

数据集配置

提交消息生成 (Commit Message Generation)

  • 默认配置
  • 数据文件:
    • 分割: 测试 (test)
    • 路径: commit_message_generation/results/*.jsonl

项目代码补全 (Project Code Completion)

  • 数据文件:
    • 分割: 测试 (test)
    • 路径: code_completion/results/*.json

基于库的代码生成 (Library-based Code Generation)

  • 数据文件:
    • 分割: 测试 (test)
    • 路径: library_based_code_generation/results/*.json

错误定位 (Bug Localization)

  • 数据文件:
    • 分割: 测试 (test)
    • 路径: bug_localization/results/*.json

模块摘要 (Module Summarization)

  • 数据文件:
    • 分割: 测试 (test)
    • 路径: module_summarization/results/*.json

CI构建修复 (CI Builds Repair)

  • 数据文件:
    • 分割: 测试 (test)
    • 路径: ci_builds_repair/results/*.json
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程与人工智能交叉领域,Long Code Arena基准测试套件的原始结果数据集通过系统化实验设计构建而成。该数据集整合了六个独立子任务,包括提交信息生成、项目级代码补全、基于库的代码生成、缺陷定位、模块摘要以及持续集成构建修复。每个子任务的数据均来源于实际开发场景,通过自动化脚本收集模型预测结果与基准答案,并以结构化JSON格式存储,确保了数据的可追溯性与一致性。
特点
该数据集的核心特征在于其多维度的长代码处理能力评估框架。它不仅覆盖了代码生成、补全与修复等传统任务,还深入至提交信息生成与模块摘要等高层语义理解领域。数据集以原始结果形式呈现,保留了模型输出与真实标签的对应关系,支持细粒度的性能分析。其模块化结构允许研究者针对特定任务进行深入探究,同时聚合配置提供了跨任务的整体视角,为长上下文代码智能模型的综合评估奠定了坚实基础。
使用方法
研究者可通过HuggingFace平台直接访问该数据集,利用提供的子集选择功能灵活提取特定基准任务的数据。每个子任务的数据以标准JSON格式组织,便于加载与解析。使用时可结合相应基准的评估脚本,对比模型预测与基准答案,计算各项性能指标。数据集适用于长代码模型的能力评测、错误模式分析以及跨任务泛化性研究,为推进代码智能领域的发展提供实证支持。
背景与挑战
背景概述
在软件工程与人工智能交叉领域,长代码理解与生成一直是核心研究难题。JetBrains Research团队于2024年推出的Long Code Arena(LCA)基准套件,旨在系统评估大型语言模型在复杂、真实世界软件开发任务中的能力。该数据集聚焦于项目级代码补全、库基代码生成、提交信息生成、缺陷定位、模块摘要以及持续集成构建修复等六项关键任务,其构建基于实际开发场景,为推进代码智能研究提供了标准化、多维度的评估框架,显著提升了该领域模型评测的严谨性与实用性。
当前挑战
长代码处理面临两大核心挑战:其一,在领域问题层面,模型需克服代码上下文冗长、依赖关系复杂及跨文件语义理解等难题,例如在项目级代码补全中,模型必须准确捕捉项目全局结构才能生成符合上下文的代码片段;其二,在数据集构建过程中,如何从真实开发环境中采集高质量、多样化的任务实例,并确保评估指标既能反映功能性正确性又能兼顾开发实践中的实用性,构成了数据收集与标注的主要障碍。
常用场景
经典使用场景
在软件工程与人工智能交叉领域,长代码处理能力评估成为研究热点。JetBrains-Research/lca-results数据集作为Long Code Arena基准测试的原始结果集合,其经典使用场景集中于系统化评测大型语言模型在复杂代码任务上的表现。研究者通过该数据集能够对比不同模型在库驱动代码生成、项目级代码补全等六个专项任务中的预测输出与真实结果,从而深入分析模型处理长上下文、理解项目结构及代码语义的效能。
解决学术问题
该数据集有效应对了当前代码智能研究中模型评估标准不统一、长序列代码任务缺乏可靠基准的学术困境。通过提供多维度、细粒度的模型预测结果,它使得研究者能够量化分析模型在真实软件开发场景中的泛化能力与局限性。其意义在于建立了可复现的评估框架,推动了代码生成、程序修复等研究方向从短代码片段向工程级长代码任务的范式转移,为模型架构优化与训练策略改进提供了实证基础。
衍生相关工作
围绕该数据集衍生的经典工作主要集中于长代码建模技术的创新与评估方法的深化。例如,部分研究基于其提供的错误模式分析,提出了针对性的注意力机制改进或分层编码策略;另一些工作则利用数据集中多任务结果,探索了代码理解与生成的统一建模框架。这些衍生研究共同推动了代码智能领域向更复杂、更贴近实际开发需求的维度演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作