ClassEval-Pro

github2026-04-27 更新2026-04-28 收录

下载链接：

https://github.com/ian-Kappa/ClassEval-Pro

下载链接

链接失效反馈

官方服务：

资源简介：

ClassEval-Pro: 一个跨领域的类级别代码生成基准数据集，包含11个领域的300个类级别任务。完整数据集和评估代码即将发布。

ClassEval-Pro: A cross-domain class-level code generation benchmark dataset consisting of 300 class-level tasks across 11 domains. The full dataset and evaluation code will be released soon.

创建时间：

2026-04-27

原始信息汇总

根据您提供的README内容，以下是对数据集详情页面的总结：

数据集概述

数据集名称：ClassEval-Pro

数据集类型：跨域类级别代码生成基准测试

核心内容：

包含 300个 类级别的任务
覆盖 11个 不同领域

当前状态：

完整数据集和评估代码即将发布

数据集地址：https://github.com/ian-Kappa/ClassEval-Pro

搜集汇总

数据集介绍

构建方式

ClassEval-Pro数据集的构建基于对现实软件工程中面向对象编程范式的深刻洞察，旨在填补现有代码生成基准在类级别任务上的空白。研究团队从11个不同领域，如金融、医疗、教育等，精心筛选了300个具有代表性的类结构设计需求。每个任务不仅包含对类功能、属性及方法交互的详细描述，还配备了多组测试用例以验证生成的类代码是否完全符合预期行为。通过这种领域多样性与任务复杂性的结合，数据集确保了评估的全面性和挑战性。

特点

该数据集最显著的特点在于其跨领域覆盖与类级别抽象的结合，使得评估不再局限于简单的函数生成，而是深入到软件架构的核心单元——类的设计。300个任务涵盖了从数据处理到业务逻辑的广泛场景，每个任务均要求模型理解类继承、接口实现及多态等面向对象概念。此外，数据集的测试套件严格设计，能够自动检测代码的功能正确性、类型安全性和边界条件处理能力，从而提供了比传统方法更细致的性能度量。

使用方法

使用ClassEval-Pro时，用户需下载包含任务描述与测试用例的标准格式文件。研究人员通过编程接口加载每个类任务，输入自然语言描述和期望的类结构提示，让大型语言模型生成对应的Python代码。生成的代码随后交由评估框架进行自动化验证：框架逐一运行预设单元测试，计算通过率并记录错误类型。最终输出包含各任务的成功率统计和跨领域的性能对比，便于用户深入分析模型在不同软件工程场景下的优势与局限。

背景与挑战

背景概述

在软件工程的演进历程中，类级代码生成作为提升开发效率、保障代码质量的关键环节，始终受到学术界与工业界的广泛关注。然而，现有评估基准多聚焦于函数级或方法级的代码生成任务，缺乏针对类级代码生成能力的系统性评测。为填补这一空白，研究人员于近期提出了ClassEval-Pro基准数据集。该数据集由来自顶尖研究机构的团队构建，包含横跨11个领域的300个类级任务，旨在全面评估代码生成模型在复杂面向对象编程场景下的性能。ClassEval-Pro的出现不仅为类级代码生成领域提供了标准化的评测平台，更为推动代码智能的纵深发展注入了新的活力。

当前挑战

ClassEval-Pro所应对的核心挑战在于，类级代码生成要求模型理解并复用多个类之间的继承、封装与多态关系，其复杂度远超函数级任务。构建该数据集时，面临的首要难题是设计覆盖11个不同应用领域的高质量任务，确保每个任务均包含完整的类结构定义与交互逻辑，这需要领域专家与软件工程师的紧密协作。此外，人工标注300个任务中的正确实现与预期行为极为耗时，且需严格规避偏差与重复。最终，确保评测指标能够公平反映模型在代码完整性、语义正确性与可执行性上的表现，亦构成了评估框架设计中的关键挑战。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，类级代码生成是一项具有挑战性的任务，要求模型不仅理解功能逻辑，还需掌握面向对象设计的架构思想。ClassEval-Pro作为一个跨领域基准数据集，涵盖11个不同领域的300个类级任务，为评估和改进大语言模型在复杂代码结构生成方面的能力提供了标准化测试平台。其经典使用场景包括：测试模型能否根据自然语言描述生成完整的类定义、继承结构、方法实现以及属性封装，从而衡量模型对面向对象程序设计原则的掌握程度。

衍生相关工作

围绕ClassEval-Pro，研究者已开展多项具有里程碑意义的工作。一方面，基于该基准衍生出针对特定编程语言（如Java、Python）的类级任务子集，用于分析和对比不同语言在面向对象表达上的差异；另一方面，部分工作利用该数据集训练专用的小型代码生成模型，探索在资源受限环境下实现高质量类级生成的可能性。此外，ClassEval-Pro还被用于评测代码生成模型的跨领域泛化能力，推动了基于领域适配和元学习的代码生成方法的涌现，成为类级代码生成方向的重要参照基准。

数据集最近研究