CL4SE

github2026-03-01 更新2026-03-19 收录

下载链接：

https://github.com/Tomsawyerhu/CodeCL

下载链接

链接失效反馈

官方服务：

资源简介：

CL4SE是第一个专门设计的基准，用于系统评估和分析大型语言模型（LLMs）在软件工程（SE）任务中的上下文学习（CL）效果。它通过建立四种SE特定上下文类型的细粒度分类法（可解释示例、项目特定上下文、程序决策上下文和正负上下文），每种类型映射到核心的现实世界SE工作流程，填补了SE研究中的关键空白。CL4SE包含来自30多个开源项目的13,000多个高质量样本，覆盖代码生成、代码摘要、代码审查和补丁正确性评估四个基本任务。每个任务都与其优化设计的上下文类型和严格的评估协议配对，使研究人员和实践者能够从临时提示制作转向有原则的上下文工程。

CL4SE is the first purpose-built benchmark for systematically evaluating and analyzing the in-context learning (CL) performance of large language models (LLMs) on software engineering (SE) tasks. It fills a critical gap in SE research by establishing a fine-grained taxonomy of four SE-specific context types: interpretable examples, project-specific context, program decision context, and positive/negative context, each of which maps to core real-world SE workflows. CL4SE contains over 13,000 high-quality samples from more than 30 open-source projects, covering four fundamental tasks: code generation, code summarization, code review, and patch correctness assessment. Each task is paired with its optimally designed context types and a rigorous evaluation protocol, enabling researchers and practitioners to shift from ad-hoc prompt engineering to principled context engineering.

创建时间：

2026-02-21

原始信息汇总

CL4SE 数据集概述

数据集简介

CL4SE 是首个专门用于系统评估和分析大型语言模型在软件工程任务中上下文学习效能的基准。该基准通过建立四种软件工程特定上下文类型的细粒度分类，并映射到核心的现实世界软件工程工作流，以解决软件工程研究中的关键空白。

核心特点

针对性：专注于软件工程领域的上下文学习评估，区别于通用的大型语言模型基准。
细粒度分类：定义了四种软件工程特定的上下文类型，包括可解释示例、项目特定上下文、过程决策上下文以及正面与负面上下文。
规模与质量：包含超过 13,000 个高质量样本，源自 30 多个开源项目。
实证效果：提供了上下文学习并非通用解决方案的实证证据，表明在使用任务特定上下文时，跨任务平均性能提升 24.7%。

任务与数据构成

数据集涵盖四项基本软件工程任务，具体构成如下：

任务	样本数量	数据来源	评估指标
代码生成	636	LeetCode	PASS@1
代码摘要	8,225	GitHub 上 Top 10 的 Python 开源项目	ROUGE-1/2/L, BLEU, METEOR, BERTScore
代码审查	1,916 (1,191 正面 / 725 负面)	32 个 GitHub 仓库	准确率、精确率、召回率、F1分数
补丁正确性评估	2,274 (1,105 正确 / 1,169 过拟合)	Defects4J v2.0 (17 个开源项目)	准确率、精确率、召回率、F1分数

获取与评估

数据集地址：https://huggingface.co/datasets/tomhu/codecl
评估前提：需要从 Hugging Face 下载数据集，并配置 GitHub Token 和模型 API 密钥。
评估脚本：提供了针对代码生成、代码审查、代码摘要和补丁正确性评估四项任务的独立评估脚本。

引用信息

标题：CL4SE: A Context Learning Benchmark For Software Engineering Tasks
作者：Haichuan Hu, Ye Shang, Guoqing Xie, Congqing He, Quanjun Zhang
年份：2026
预印本：https://arxiv.org/abs/2602.23047

搜集汇总

数据集介绍

构建方式

在软件工程领域，对大型语言模型上下文学习能力的系统评估尚属空白。CL4SE基准的构建过程体现了严谨的学术方法，其核心在于建立了一个精细的、面向软件工程任务的上下文分类体系。该体系定义了四种特定类型的上下文，包括可解释示例、项目特定上下文、程序决策上下文以及正负反馈上下文，每种类型均映射到现实世界中的核心软件开发工作流。数据采集覆盖了超过30个开源项目，通过精心筛选和标注，最终汇集了超过13,000个高质量样本，涵盖了代码生成、代码摘要、代码审查和补丁正确性评估四个基础任务，确保了数据集的代表性与广度。

特点

CL4SE数据集最显著的特征在于其开创性地将上下文学习范式与软件工程具体任务深度结合。它并非一个通用基准，而是专门为评估大模型在软件工程场景下的上下文利用效能而设计。数据集依据其建立的分类学，为每个任务匹配了最优设计的上下文类型，并配备了严格的评估协议，从而引导研究从临时的提示词工程转向原则性的上下文工程。实证结果表明，使用任务特定上下文能带来平均24.7%的性能提升，这有力揭示了上下文学习并非普适方案，其效果高度依赖于任务与上下文类型的精准对齐。

使用方法

为了利用CL4SE进行模型评估，研究者需遵循标准化的操作流程。首先从Hugging Face平台获取数据集并置于指定目录，随后配置必要的环境变量与API密钥。评估过程通过执行预置的脚本启动，针对代码生成、代码摘要、代码审查和补丁正确性评估四个任务，分别有对应的自动化评估脚本。这些脚本封装了数据加载、模型调用与指标计算的全过程，确保了评估的可复现性与一致性。通过这一套集成工具链，研究者能够便捷地量化不同大型语言模型在各类软件工程上下文下的实际表现。

背景与挑战

背景概述

在软件工程领域，大型语言模型的应用日益广泛，但如何有效利用上下文学习来提升模型在特定任务上的性能，一直缺乏系统性的评估基准。CL4SE数据集应运而生，由Haichuan Hu等研究人员于2026年创建，旨在填补这一研究空白。该数据集专注于软件工程任务，通过构建一个包含超过13,000个高质量样本的基准，覆盖代码生成、代码摘要、代码审查和补丁正确性评估四个核心任务。其创新之处在于首次提出了软件工程特有的上下文类型分类，包括可解释示例、项目特定上下文、过程决策上下文以及正负上下文，并将这些类型映射到真实工作流程中。CL4SE的建立为研究人员提供了标准化的评估工具，推动了上下文学习在软件工程领域的可重复研究，实证显示使用任务特定上下文平均能带来24.7%的性能提升，对促进大型语言模型在软件工程中的精细化应用具有重要影响力。

当前挑战

CL4SE数据集面临的挑战主要体现在两个方面：在领域问题层面，软件工程任务通常涉及复杂的语义理解和逻辑推理，例如代码生成需要模型准确捕捉编程意图和语法规则，而代码审查则需识别潜在缺陷并给出合理建议，这些任务对模型的上下文适应性和泛化能力提出了较高要求；在构建过程中，挑战包括从30多个开源项目中收集并标注高质量样本，确保数据多样性和代表性，同时设计精细的上下文分类体系以匹配不同任务需求，避免数据偏差并维护评估协议的严谨性，这些工作需克服项目异构性和标注一致性等难题，以支撑基准的可靠性和普适性。

常用场景

经典使用场景

在软件工程领域，大型语言模型的应用日益广泛，但如何有效利用上下文信息提升任务性能仍是一个关键挑战。CL4SE数据集通过构建细粒度的上下文类型分类，为代码生成、代码摘要、代码审查和补丁正确性评估这四项核心任务提供了标准化评估框架。研究人员可以基于该数据集，系统地探究不同上下文类型对模型性能的影响，从而推动从临时性提示工程向原则性上下文设计的转变。

衍生相关工作

围绕CL4SE数据集，已衍生出一系列聚焦上下文学习优化的经典研究。这些工作深入探索了不同上下文组合对模型性能的影响，并提出了多种上下文增强策略，如动态上下文选择机制和混合上下文融合方法。此外，部分研究进一步扩展了数据集的适用范围，将其应用于更复杂的软件工程任务，如缺陷定位和代码重构，持续推动着智能软件工程领域的理论创新与实践进步。

数据集最近研究