five

delulu-fim-benchmark

收藏
Hugging Face2026-05-07 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/microsoft/delulu-fim-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
Delulu是一个经过验证的多语言填充中间(FIM)代码补全基准数据集,旨在针对四类知识级幻觉进行测试:虚构的方法名(`AttributeError`)、不存在的关键字参数(`TypeError`)、超出范围的标识符(`NameError`)和不存在的导入(`ImportError`)。数据集包含1,947个样本,涵盖7种编程语言(Python、TypeScript、Java、C#、Go、Rust、C++)。每个样本都配有一个正确的“黄金”补全和一个“幻觉”补全,两者均通过Docker容器中的执行验证和三名人类专家的审查。数据集仅用于测试目的,明确不建议用于微调。数据集的结构包括每个样本的元数据、补全文本、错误消息和许可证信息。适用于代码补全模型的生成评估以及幻觉检测和验证器评估。

Delulu is a validated multilingual fill-in-the-middle (FIM) code completion benchmark dataset designed to test for four categories of knowledge-level hallucinations: made-up method names (`AttributeError`), non-existent keyword arguments (`TypeError`), out-of-scope identifiers (`NameError`), and non-existent imports (`ImportError`). The dataset contains 1,947 samples across 7 programming languages (Python, TypeScript, Java, C#, Go, Rust, C++). Each sample is paired with a correct gold completion and a hallucinated completion, both validated via execution in Docker containers and reviewed by three human experts. The dataset is intended for testing purposes only and explicitly not recommended for fine-tuning. The dataset structure includes metadata, completion text, error messages, and license information for each sample. Suitable for generative evaluation of code completion models as well as hallucination detection and validator evaluation.
提供机构:
Microsoft
创建时间:
2026-05-02
搜集汇总
数据集介绍
main_image_url
构建方式
Delulu-fim-benchmark的构建过程严谨而系统化,旨在多语言代码补全场景中精准识别知识型幻觉。构建始于从公开GitHub仓库中挖掘依赖约25个第三方包的真实源文件。随后利用Claude-Sonnet-4.5模型,针对给定的FIM上下文,通过类型特定提示生成配对的金标准补全和幻觉补全,仅修改原始补全中的一个元素。生成的样本经过由四个大型语言模型组成的判别器面板进行三轮嵌入对抗挖掘筛选,难度逐轮提升。通过筛选的样本在逐样本的Docker容器中执行验证,确保金标准文件无错误运行,而幻觉变体产生预期的运行时错误。最终,每对样本由三名人类专家审阅,可接受、拒绝或编辑后重新验证,从而确保数据集的高质量和可靠性。
特点
该数据集最显著的特点是其多维度、执行验证的幻觉评测体系。它包含1947个样本,覆盖Python、TypeScript、Java、C#、Go、Rust和C++七种主流编程语言,聚焦于四种知识级幻觉类型:不存在的导入、虚构的方法名、无效的关键字参数和超出作用域的标识符,分别对应ImportError、AttributeError、TypeError和NameError等运行时错误。每个样本均提供金标准补全和幻觉补全,且经过Docker容器执行验证和三人专家复审,确保了样本的准确性。数据集还配备完备的元数据,包括基准ID、语言、幻觉类型、错误信息及许可证信息,便于多维度分析和合规使用。
使用方法
该数据集设计为仅用于测试目的。研究者可通过HuggingFace Datasets库轻松加载,并用于评估FIM代码补全模型。使用方法简单明晰:首先加载数据集,随后对每个FIM上下文(提示和后缀)生成模型补全,最后通过文本指标(如精确匹配、编辑相似度、CodeBLEU)和基于相似度的幻觉率进行评估。为进行基于执行的pass@1评估,微软还提供了包含验证脚本的GitHub仓库和逐样本Docker镜像,支持对模型输出进行实际的编译和运行测试。需要注意的是,该数据集明确禁止用于微调,以免引发滥用风险。
背景与挑战
背景概述
随着大型语言模型在代码补全任务中的广泛应用,填充中间(FIM)范式已成为现代代码助手的核心能力之一。然而,模型在生成代码时频繁产生“幻觉”——即虚构出不存在的方法名、参数或导入——严重威胁了生成代码的可靠性。《Delulu》基准测试由微软研究院的Mahdi Erfanian、Nelson Daniel Troncoso等研究者于2026年提出,旨在系统性地评估代码补全模型在FIM任务中的知识层面幻觉问题。该数据集包含1,947个经执行验证的样本,覆盖Python、TypeScript等七种主流编程语言,并针对四类运行时错误(ImportError、AttributeError、TypeError、NameError)设计了Golden与Hallucinated的成对补全实例。作为首个多语言、可执行的FIM幻觉评估基准,Delulu为代码语言模型的鲁棒性研究提供了全新的度量标准。
当前挑战
Delulu所解决的领域核心挑战在于,现有代码补全评估指标(如BLEU、精确匹配)无法捕捉模型生成虚假API或标识符的语义错误。数据集的构建过程亦面临三重困难:其一,从公共GitHub仓库中挖掘真实代码时,需确保每个样本的依赖关系可被单文件Docker化验证,从而排除了跨文件的复杂场景;其二,利用大语言模型自动生成成对的正确与幻觉补全过程后,需经过四模型对抗过滤与三阶段人工审核,方能在1,947个样本中达成运行时错误类别的精确对齐;其三,面对七种语言中各异的错误类型(如Java的ClassNotFoundException与Rust的unresolved import),统一维系四类错误标签的语义等价性,对数据标注的一致性构成重大挑战。
常用场景
经典使用场景
在代码智能与软件工程领域,fill-in-the-middle(FIM)补全范式已成为现代代码助手工具的核心交互方式,然而现有基准多集中于语法正确性或功能匹配,对模型在补全过程中产生的知识层级幻觉缺乏系统评估。Delulu基准填补了这一空白,它提供了一组跨七种编程语言的精心构建的FIM上下文,每个上下文均附带一条正确补全与一条产生特定运行时错误的幻觉补全,涵盖方法名虚构、参数伪造、作用域外标识符引用以及不存在的导入引用四类典型幻觉模式。这一设计使得Delulu成为评估代码补全模型如何在缺乏真实知识时产生看似合理却错误的补全行为的标尺,尤其适用于研究模型在不同编程语言和错误类型上的脆弱性分布,为理解大语言模型在代码生成中的认知边界提供了可重复测量的权威工具。
衍生相关工作
Delulu基准的发布催生了多条富有前景的研究方向。其一,基于Delulu测试集,研究者开发了专用的幻觉检测器,这些检测器能够将模型的补全输出与已知幻觉模式进行比对,从而在代码生成阶段实时拦截潜在错误,代表性的工作包括基于对比学习的幻觉判别器和多投票机制的幻觉过滤系统。其二,该数据集与FIM补全模型的对抗训练相融合,研究人员将Delulu中的幻觉构造策略转化为自动化的训练数据生成流程,通过在新的种子语料库上重复其筛选与验证管道,生成了更大规模的抗幻觉微调数据,显著提升了基座模型在知识密集型代码补全任务上的鲁棒性。此外,Delulu的四类幻觉分类体系已被多个代码评估基准采纳作为标准评价维度,促进了统一评估框架的形成,使得不同研究团队开发的代码模型可以在一套共同的幻觉诊断标准下进行比较,极大地加速了该领域的知识积累与最佳实践传播。
数据集最近研究
最新研究方向
在代码大模型飞速发展的浪潮中,幻觉问题已成为制约其可靠落地的核心瓶颈。Delulu基准数据集应运而生,专注评估填充式代码补全模型在知识层面的幻觉现象——涵盖虚构方法名、不存在的关键字参数、超出作用域的标识符以及无效导入四类典型错误。该数据集精选1,947个样本,覆盖七种主流编程语言,每个样本均经过Docker容器内执行验证与三人专家组双重审核,确保错误类型的分类准确性。其前沿性体现在对代码大模型知识边界的精准刻画:模型能否区分真实API与幻觉生成的虚构接口,能否追踪作用域内的合法标识符,直接决定了AI辅助编程在工业生产环节的安全性。这一基准的提出,源于业界对代码助手使幻觉代码潜入生产环境的深切忧虑,其意义在于为代码智能体提供了一套可复现、语言无关的幻觉度量标尺,推动代码补全从追求代码表面正确性向深层次的知识准确性跃迁。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作