LoCoBench
收藏arXiv2025-09-12 更新2025-11-24 收录
下载链接:
https://github.com/SalesforceAIResearch/LoCoBench
下载链接
链接失效反馈官方服务:
资源简介:
LoCoBench 是一个为评估长上下文大型语言模型在复杂软件工程中的应用而设计的综合基准。该数据集由 Salesforce AI Research 创建,包含 8000 个评估场景,覆盖 10 种编程语言和 36 个领域类别。数据集的上下文长度从 10K 到 1M Tokens 不等,能够精确评估长上下文性能的退化。LoCoBench 引入了 8 个任务类别,包括架构理解、跨文件重构、多会话开发、错误调查、功能实现、代码理解、集成测试和安全分析,旨在解决复杂软件工程中的长上下文能力评估问题。数据集通过一个五阶段的流程创建,包括项目规范生成、代码库生成、评估场景创建、验证和质量管理以及 LLM 评估和评分。LoCoBench 提供了一个全面的评估框架,包含 17 个指标,涵盖软件工程卓越、功能正确性、代码质量评估和长上下文利用等方面。
LoCoBench is a comprehensive benchmark designed to evaluate the applications of long-context large language models in complex software engineering. Developed by Salesforce AI Research, this dataset comprises 8,000 evaluation scenarios spanning 10 programming languages and 36 domain categories. The context lengths of the dataset range from 10K to 1M Tokens, enabling precise evaluation of performance degradation in long-context scenarios. LoCoBench introduces 8 task categories, including architecture understanding, cross-file refactoring, multi-session development, bug investigation, function implementation, code comprehension, integration testing, and security analysis, aiming to address the challenge of evaluating long-context capabilities in complex software engineering. The dataset is created through a five-stage workflow, which includes project specification generation, codebase generation, evaluation scenario creation, validation and quality management, as well as LLM evaluation and scoring. LoCoBench provides a comprehensive evaluation framework with 17 metrics covering software engineering excellence, functional correctness, code quality assessment, and long-context utilization, among other aspects.
提供机构:
Salesforce AI Research
创建时间:
2025-09-12
搜集汇总
数据集介绍

构建方式
LoCoBench采用系统化的五阶段流水线构建方法,旨在评估长上下文大语言模型在复杂软件工程任务中的表现。第一阶段通过生成1000个跨10种编程语言和36个领域范畴的项目规范,确保数据集的广泛覆盖性。第二阶段基于规范合成包含50,000余文件、1500万行代码的完整代码库,每个项目包含10-100个文件,通过自动化验证保证代码质量和架构一致性。第三阶段将代码库转化为涵盖8类任务的8000个评估场景,通过智能算法选择文件子集,实现从10K到1M令牌的上下文长度系统缩放。第四阶段通过编译检查、质量指标验证和偏差检测确保场景质量,第五阶段采用包含17个指标的评估框架对模型进行综合测评。
特点
该数据集具有多维度系统性特征,其核心优势体现在任务设计的全面性与评估框架的创新性。涵盖架构理解、跨文件重构、多会话开发等8类关键软件工程任务,精准捕捉长上下文模型在真实开发场景中的核心能力。通过10种编程语言的均衡覆盖与36个领域范畴的广泛分布,有效避免了特定语言或领域的评估偏差。独特的上下文长度缩放机制实现了从10K到1M令牌的100倍变化范围,为研究模型在极端上下文条件下的性能衰减提供了精确测量基准。新引入的6项评估指标包括架构一致性评分和依赖遍历准确率等,专门针对长上下文软件开发的特殊需求设计,与11项传统指标共同构成四维评估体系。
使用方法
研究者在运用该数据集时可遵循标准化评估流程,首先通过官方代码库获取完整的8000个评估场景及其配套工具链。评估过程支持主流长上下文模型的直接集成,采用统一的API接口确保实验可复现性。针对每个任务场景,系统会自动提取相关代码文件构建评估上下文,研究者可根据需要选择不同难度级别和上下文长度配置。评估结果通过17个指标的综合计算生成LoCoBench评分,其中软件工程卓越性占比40%,功能正确性占30%,代码质量评估占20%,长上下文利用占10%。该框架支持跨编程语言、任务类别和架构模式的细粒度性能分析,为模型能力诊断提供多维度洞察。
背景与挑战
背景概述
LoCoBench是由Salesforce AI Research于2025年提出的长上下文大语言模型评测基准,专注于复杂软件工程场景下的能力评估。该基准针对当前代码生成模型在理解大规模代码库、跨文件推理及架构一致性维护方面的不足而设计,通过五阶段流水线生成涵盖10种编程语言和36个应用领域的8000个评测场景,填补了传统代码评测基准在长上下文能力评估上的空白。其创新性地引入17项跨维度评测指标,包括新提出的架构一致性评分和跨会话记忆保留等指标,为长上下文模型在真实软件开发中的性能退化研究提供了系统化分析框架。
当前挑战
在领域问题层面,LoCoBench致力于解决长上下文模型在复杂软件工程任务中面临的三大核心挑战:跨文件架构理解需要模型在百万令牌量级上下文中识别系统设计模式与组件依赖关系;多会话开发场景要求模型在增量式开发过程中保持上下文记忆与逻辑一致性;代码库级功能实现需协调数十个文件间的接口规范与测试验证。在构建过程中,基准面临大规模合成数据生成的可靠性挑战,包括保持生成代码的编译通过率与架构合理性;跨语言场景的复杂度校准需平衡不同编程范式的特性差异;长上下文任务的难度分级机制需要精确控制令牌长度与认知负荷的对应关系。
常用场景
衍生相关工作
基于LoCoBench的评估框架,研究社区已衍生出多个重要的相关研究工作。在模型架构优化方面,该基准启发了针对长上下文处理的专用神经网络结构设计;在训练策略上,推动了基于真实代码库分布的多阶段预训练方法;在评估方法论层面,催生了面向特定软件工程场景的专项评测基准。数据集提出的架构一致性评分和依赖遍历准确率等新型指标,已被后续研究广泛采纳作为长上下文模型能力的关键衡量标准,为软件工程智能化的技术发展奠定了坚实的评估基础。
数据集最近研究
最新研究方向
在长上下文大语言模型快速发展的背景下,LoCoBench作为首个专注于复杂软件工程场景的基准测试工具,正引领该领域的前沿研究方向。当前研究聚焦于探索模型在百万级代码库中的架构理解能力,通过引入跨文件重构、多会话开发等八大任务类别,系统评估模型在真实开发环境中的长上下文推理性能。随着业界对代码生成质量要求的提升,该数据集推动了六项新型评估指标的创新应用,包括架构一致性评分和依赖遍历准确率,为破解模型在超长代码上下文中性能衰减的难题提供了关键方法论支撑。相关研究已揭示顶尖模型在专家级任务中仍存在显著能力缺口,这一发现正驱动学术界与工业界共同优化长上下文代码理解的技术路径,对下一代智能编程助手的研发具有里程碑意义。
相关研究论文
- 1通过Salesforce AI Research · 2025年
以上内容由遇见数据集搜集并总结生成



