ETF-CodeSumEval
收藏Hugging Face2025-06-20 更新2025-06-21 收录
下载链接:
https://huggingface.co/datasets/kishanmaharaj/ETF-CodeSumEval
下载链接
链接失效反馈官方服务:
资源简介:
CodeSumEval是一个用于评估和分析代码摘要中幻觉现象的开创性数据集。它由411个Java方法摘要组成,这些摘要是通过7种不同的语言模型生成的,并包含9933个实体级别注释,这些注释指明了摘要中每个实体提及的正确性、错误性或无关性。此外,该数据集还包含一个丰富的分类法,用于对错误描述的根本原因进行分类。
创建时间:
2025-06-20
搜集汇总
数据集介绍

构建方式
在代码摘要生成领域,ETF-CodeSumEval数据集通过系统化方法构建,旨在深入研究大语言模型在代码摘要任务中的幻觉现象。研究团队收集了411个Java方法代码片段,并采用7种不同的大语言模型生成对应摘要。通过人工标注的方式,对摘要中提及的9,933个实体进行细致分类,标记其正确性及幻觉成因,同时建立了完整的幻觉因素分类体系。
特点
该数据集展现出鲜明的专业特性,其核心价值在于首次系统化标注了代码摘要中的实体级幻觉现象。数据集包含31.63%存在幻觉的摘要样本,实体级标注显示90.84%的实体描述准确,同时精确区分了3.05%的错误描述和6.11%的无关内容。独特的幻觉因素分类体系为理解代码摘要生成缺陷提供了多维分析视角,填补了该领域细粒度评估资源的空白。
使用方法
研究者可借助该数据集开展多维度分析,既可在摘要层面评估不同模型的幻觉发生率,也能深入实体层面探究错误分布规律。使用时应结合配套的标注体系,通过交叉比对代码实体与摘要描述的对应关系,量化分析幻觉现象的成因类型与分布特征。数据集特别适用于开发幻觉检测算法、优化代码摘要模型等研究场景,引用时需遵循指定的文献格式。
背景与挑战
背景概述
ETF-CodeSumEval数据集由Maharaj等研究人员于2024年提出,旨在深入研究代码摘要任务中的幻觉现象。该数据集由411个Java方法摘要构成,覆盖7种不同大型语言模型的生成结果,并包含9,933个细粒度实体标注,为代码摘要领域提供了首个系统性的幻觉分析框架。研究团队通过构建详尽的幻觉分类体系,揭示了代码摘要中实体描述错误的深层原因,为提升代码理解模型的可靠性奠定了重要基础。
当前挑战
该数据集主要应对代码摘要领域的两大核心挑战:模型生成摘要时频繁出现的实体描述错误问题,以及缺乏标准化评估框架的现状。在构建过程中,研究者面临标注一致性的技术难题,需处理代码实体与自然语言描述间的复杂映射关系。同时,幻觉因素的多维度分类要求标注者具备跨领域的专业知识,这对标注质量控制和标注效率提出了双重考验。
常用场景
经典使用场景
在代码摘要生成领域,ETF-CodeSumEval数据集为研究者提供了一个标准化的评估基准。该数据集通过标注Java代码片段及其对应的大模型生成摘要,特别关注摘要中的实体级正确性和幻觉现象,为分析不同大语言模型在代码摘要任务中的表现提供了丰富的数据支持。
衍生相关工作
基于ETF-CodeSumEval数据集,研究者已开展多项创新工作。其中包括开发新型幻觉检测算法、构建代码摘要质量评估指标,以及设计针对性的模型微调策略。这些工作显著推动了代码理解和生成领域的研究进展。
数据集最近研究
最新研究方向
在代码摘要生成领域,幻觉问题已成为制约模型性能的关键瓶颈。ETF-CodeSumEval数据集通过细粒度的实体级标注,为揭示大语言模型在代码摘要任务中的幻觉机制提供了全新视角。当前研究热点集中于基于该数据集构建的实体追踪框架,通过分析303个错误实体和606个无关实体的分布规律,探索模型在代码语义理解、上下文关联和实体引用等方面的认知偏差。该数据集的出现推动了代码摘要评估范式从传统的BLEU、ROUGE等表面指标向可解释性更强的实体级验证转变,为提升生成摘要的准确性和可靠性奠定了重要基础。
以上内容由遇见数据集搜集并总结生成



