一个新的基准数据集
收藏arXiv2025-09-03 更新2025-09-05 收录
下载链接:
https:#
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含240个手动验证的代码示例,涵盖了所有五个SOLID原则,分为三个难度级别,并提供违反和重构的代码版本。该数据集用于评估大型语言模型在多语言代码库中检测SOLID原则违规的能力。
This dataset contains 240 manually validated code examples covering all five SOLID principles. These examples are divided into three difficulty levels, and provide both code samples with SOLID principle violations and their refactored versions. This dataset is designed to evaluate the ability of large language models (LLMs) to detect SOLID principle violations across multilingual code repositories.
提供机构:
比尔肯特大学,土耳其
创建时间:
2025-09-03
搜集汇总
数据集介绍
构建方式
在软件工程领域,SOLID原则的违反检测长期面临语义理解挑战,该数据集通过混合方法构建:首先基于经典文献定义20个代表性违反场景,每个场景涵盖五种SOLID原则;随后利用GPT-4o生成多语言代码片段,并人工精炼确保真实性与清晰度。所有样本按复杂度分为三个等级,最终形成包含240个经双重人工验证的代码样本集,涵盖Python、Java、C#和Kotlin四种语言。
特点
该数据集的核心特征在于其多维度的设计架构:全面覆盖SOLID所有五项原则,每个原则配备违反与重构后的对照版本,提供语义层面的完整性。样本按字符数与圈复杂度划分为三个难度层级,有效模拟真实开发场景中的代码复杂性变化。其独特价值在于同时提供多语言支持与人工验证的黄金标准标签,为评估大语言模型的架构感知能力奠定坚实基础。
使用方法
该数据集专为大语言模型的设计原则检测能力评估而设计,使用者可通过加载代码样本并搭配定制化提示策略(如零样本、少样本或思维链提示)输入目标模型。输出需解析为六分类标签(五项原则加无违反),并通过准确率与F1分数量化性能。建议结合代码复杂度与语言特性进行分层分析,以揭示模型在不同设计上下文中的表现差异。
背景与挑战
背景概述
在软件工程领域,确保代码的可维护性与可扩展性始终是核心挑战。SOLID设计原则作为面向对象设计的基石,由Robert C. Martin于21世纪初提出,旨在通过单一职责(SRP)、开闭原则(OCP)等五项准则提升代码质量。2025年,Bilkent大学研究团队构建了针对SOLID原则违反检测的新基准数据集,涵盖Java、Python等四种语言,通过240个手工验证的代码样本,首次系统评估了大语言模型在跨语言设计缺陷识别中的潜力,为AI辅助代码分析提供了实证基础。
当前挑战
该数据集需解决语义级设计缺陷检测的挑战,包括模型对抽象原则(如依赖倒置DIP)的推理能力不足,以及代码复杂度升高时检测精度显著下降的问题。构建过程中面临多语言样本的语义一致性维护、难度分级标准制定(以代码量和环复杂度为指标),以及LLM输出结构非标准化导致的37%响应需人工标注等难题。
常用场景
经典使用场景
在软件工程领域,该数据集作为评估大型语言模型检测SOLID设计原则违反能力的基准工具,广泛应用于模型性能对比研究。研究者通过系统化测试不同提示策略下模型对单一职责、开闭原则等五类设计违例的识别准确率,为AI代码辅助工具的架构感知能力提供量化依据。
实际应用
工业界将该数据集应用于智能编程助手的能力校准,帮助开发者筛选具备设计意识的人工智能工具。科技企业可依据其评估结果优化代码审查流程,将SOLID原则检测集成至持续集成管道,有效提升大型软件项目的可维护性与架构健壮性。
衍生相关工作
该数据集催生了多项关于提示工程优化的重要研究,例如基于思维链的违例映射方法和集成式评分策略。后续工作进一步扩展了其应用边界,包括自动化重构建议生成、跨语言设计模式迁移分析以及工业级代码库的适应性验证框架。
以上内容由遇见数据集搜集并总结生成



