CodeFuse-CommitEval

github2025-11-26 更新2025-11-27 收录

下载链接：

https://github.com/codefuse-ai/CodeFuse-CommitEval

下载链接

链接失效反馈

官方服务：

资源简介：

CodeFuse-CommitEval是第一个专门针对大语言模型的提交消息-代码不一致性检测基准。基于ApacheCM数据集构建，通过规则引导的突变合成七种不一致消息类型，并应用双重验证来验证正负样本。

CodeFuse-CommitEval is the first benchmark dedicated to detecting commit message-code inconsistencies for large language models (LLMs). Built upon the ApacheCM dataset, it synthesizes seven types of inconsistent commit messages via rule-guided mutation, and applies dual validation to verify both positive and negative samples.

创建时间：

2025-11-24

原始信息汇总

CodeFuse-CommitEval 数据集概述

数据集简介

CodeFuse-CommitEval 是首个专为大语言模型设计的提交信息-代码不一致性检测基准。基于 ApacheCM 数据集构建，通过规则引导的突变方法合成七种不一致消息类型，并应用双重验证确保正负样本质量。

主要特征

多语言大规模数据集
均匀分布的样本分布
丰富的不一致提交类型
模块化提交突变规则
合成样本的有效验证

评估方法

在原始设置和三种增强策略下评估六个开源大语言模型：

少样本提示
思维链
扩展上下文

评估模型

DeepSeek-V3.1
gpt-oss-20b
Qwen3-30B-A3B
Llama-3.1-8B
Mistral-Small-3.2-24B
Kimi-K2-Instruct

环境要求

Python 3.9.6
依赖包：langchain、langchain_openai、langchain_community

引用信息

bibtex @misc{zhang2025codefusecommitevalbenchmarkingllmspower, title={CodeFuse-CommitEval: Towards Benchmarking LLMs Power on Commit Message and Code Change Inconsistency Detection}, author={Qingyu Zhang and Puzhuo Liu and Peng Di and Chenxiong Qian}, year={2025}, eprint={2511.19875}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2511.19875}, }

许可证

Apache License 2.0

搜集汇总

数据集介绍

构建方式

在软件工程领域，高质量的代码提交信息对于维护项目可追溯性至关重要。CodeFuse-CommitEval基于ApacheCM数据集构建，通过规则引导的突变方法系统性地合成了七类不一致的提交信息，覆盖了多种语义偏差场景。构建过程中采用双重验证机制，分别对正负样本进行严格的人工与自动化校验，确保数据标签的准确性与可靠性，最终形成包含消息与代码差异对的标注数据集。

特点

该数据集展现出显著的多语言与大尺度特性，涵盖多样化的编程语言与项目背景。其样本分布均匀，避免了类别不平衡问题，同时囊括了丰富的提交不一致类型，从语义矛盾到上下文缺失均有涉及。模块化的提交突变规则设计使得数据生成过程具备高度可扩展性，而合成样本的有效验证进一步保障了数据质量的严谨性。

使用方法

使用者需配置Python 3.9以上环境并安装指定依赖库，通过克隆目标代码库完成上下文准备。评估阶段支持纯语言模型、少样本提示、思维链及扩展上下文四种推理策略，用户可通过命令行参数灵活指定模型部署方式与并发参数。该框架兼容本地部署与远程API调用，为不同规模的计算需求提供了适配方案。

背景与挑战

背景概述

在软件工程领域，代码提交信息与代码变更的一致性对项目维护至关重要。CodeFuse-CommitEval由研究团队于2025年提出，作为首个专注于提交信息与代码不一致性检测的基准数据集。该数据集基于ApacheCM构建，通过规则引导的突变方法系统生成七类不一致提交样本，并采用双重验证机制确保数据质量。其创新性在于为大语言模型提供了标准化评估框架，推动了代码智能分析领域的发展。

当前挑战

该数据集致力于解决提交信息与代码变更不一致性检测这一核心挑战，涵盖语义冲突、功能描述偏差等复杂场景。构建过程中面临多重技术难点：需通过规则突变生成高质量负样本，同时保持数据分布的均衡性；验证环节需确保合成样本的语义准确性与逻辑完整性，避免引入噪声数据。此外，多语言代码库的异构性及大语言模型泛化能力的评估亦构成显著挑战。

常用场景

经典使用场景

在软件工程领域，代码提交信息与代码变更的一致性检测是保障代码库质量的关键环节。CodeFuse-CommitEval数据集通过构建多样化的提交信息-代码差异对，为大型语言模型提供了评估其在消息-代码不一致性检测任务中性能的标准化基准。该数据集基于ApacheCM数据集构建，涵盖七类不一致消息类型，支持在纯语言模型设置及多种增强策略下进行系统性评测，成为研究代码提交语义一致性的核心实验平台。

解决学术问题

该数据集有效解决了软件维护中语义一致性验证的学术难题。通过规则引导的突变方法和双重验证机制，构建了高质量的正负样本对，为量化分析语言模型在代码变更理解中的局限性提供了数据基础。其意义在于建立了首个专注于提交信息-代码不一致检测的评估体系，推动了智能代码审核、自动化软件质量保障等研究方向的发展，为理解语言模型在软件工程任务中的认知边界提供了重要依据。

衍生相关工作

基于该数据集衍生的经典研究包括对六大开源语言模型的系统性评估，探索了少样本提示、思维链推理和上下文扩展等增强策略的效果。相关成果推动了如DeepSeek-V3.1、Qwen3-30B等模型在代码理解任务中的优化，促进了智能编程助手领域的算法创新。这些工作不仅验证了数据集的有效性，更为构建下一代代码语义分析工具奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成