CoDelusion

github2025-05-30 更新2025-05-31 收录

下载链接：

https://github.com/CoDelusion-Dataset/CoDelusion

下载链接

链接失效反馈

官方服务：

资源简介：

我们引入了**CoDelusion**，一个大规模、精细注释的代码幻觉数据集，包含由六个主流LLM为500个函数级编程问题生成的15,000个代码样本。通过对生成的代码进行开放编码，我们建立了一个全面的代码幻觉分类框架，并对所有样本进行了细粒度、多标签注释，与之前工作中采用的粗糙、单标签方案形成对比。

We introduce **CoDelusion**, a large-scale, finely annotated code delusion dataset containing 15,000 code samples generated by six mainstream LLMs for 500 function-level programming problems. Through open-coding the generated code, we establish a comprehensive code delusion classification framework and perform fine-grained, multi-label annotations on all samples, contrasting with the coarse, single-label approach used in previous work.

创建时间：

2025-05-27

原始信息汇总

CoDelusion数据集概述

数据集简介

名称：CoDelusion
规模：包含15,000个代码样本
来源：由6个主流LLM针对500个函数级编程问题生成
特点：精细标注的代码幻觉数据集

数据集内容

代码样本：
- 来自多个LLM的代码生成实例
- 包含测试结果和执行结果
- 人工标注的幻觉标签
- 多模型、多样本的比较数据
标注特点：
- 采用细粒度、多标签标注方案
- 建立全面的代码幻觉分类框架

项目结构

数据集目录：./dataset/
- 存储代码生成幻觉数据集
- 包含详细文档：https://github.com/CoDelusion-Dataset/CoDelusion/blob/main/dataset/readme.md
检测工具：
- CodeBERT-based代码检测器：./llm_code_detection/
- LLM代码幻觉分类工具：./llm_code_classify/

技术特性

支持模型：DeepSeek、GPT-4、Claude、Llama、Qwen等
功能：
- 提供Python API和命令行接口
- 生成详细分析报告

使用要求

Python 3.6+
PyTorch 1.8.0+
Transformers 4.5.0+

许可协议

MIT License

搜集汇总

数据集介绍

构建方式

在代码生成领域，大型语言模型（LLM）的幻觉问题日益受到关注。CoDelusion数据集通过系统性方法构建，收集了6种主流LLM针对500个函数级编程问题生成的15,000个代码样本。研究团队采用开放式编码技术，建立了全面的代码幻觉分类框架，并对所有样本进行了细粒度的多标签标注，突破了以往研究中粗粒度单标签标注的局限。数据集以JSON格式存储，包含代码生成实例、测试结果、执行结果以及人工标注的幻觉标签等多维度信息。

特点

作为代码生成领域的重要资源，CoDelusion数据集展现出显著特点。其覆盖了DeepSeek、GPT-4、Claude、Llama和Qwen等多种主流LLM的生成结果，实现了多模型横向比较。数据集采用精细的多标签标注体系，能够准确反映代码幻觉的复杂类型。配套提供的CodeBERT检测工具和分类工具链，为研究者提供了从检测到分析的全套解决方案，极大提升了数据集的实用价值。

使用方法

该数据集的使用遵循标准化流程。用户可通过克隆GitHub仓库获取完整资源包，其中包含数据集目录、CodeBERT检测器和幻觉分类工具三个核心组件。安装过程需配置Python3.6+环境和相关依赖库。数据集采用模块化设计，研究者既可整体使用所有标注数据，也能根据需求单独调用检测或分类模块。详细的组件文档提供了API接口和命令行两种调用方式，支持灵活的二次开发和研究验证。

背景与挑战

背景概述

CoDelusion数据集是近年来在大型语言模型（LLM）代码生成研究领域涌现的重要资源，由研究团队于2023年推出。该数据集针对LLM在代码生成过程中产生的幻觉现象，系统性地收集了来自6种主流模型的15,000个代码样本，覆盖500个函数级编程问题。区别于传统粗粒度的单标签标注方案，研究团队通过开放式编码建立了多维度的代码幻觉分类框架，并采用细粒度的多标签标注策略。这一创新性工作为深入理解LLM代码生成缺陷提供了标准化评估基准，显著推动了程序合成与人工智能可靠性交叉领域的研究进展。

当前挑战

在解决代码幻觉检测这一核心问题上，数据集面临着模型输出多样性带来的标注复杂度挑战，不同LLM生成的错误模式呈现显著差异性。构建过程中的主要挑战体现在三个方面：多模型输出结果的标准化对齐需要设计统一的评估框架；细粒度多标签标注体系要求标注者具备专业的代码审查能力；幻觉类型的动态演变特性使得分类体系需要持续迭代更新。这些挑战使得数据集的构建过程远比传统单模态数据集更为复杂，需要平衡标注效率与学术严谨性的双重需求。

常用场景

经典使用场景

在大型语言模型（LLM）生成的代码质量评估领域，CoDelusion数据集凭借其精细标注的15,000个代码样本，成为研究代码幻觉现象的基准工具。该数据集通过六种主流LLM对500个函数级编程问题生成的代码进行多标签分类，为研究者提供了分析不同模型产生代码幻觉模式差异的标准化平台。特别是在对比不同LLM的代码生成可靠性时，该数据集支持从语法错误到逻辑缺陷的多维度评估。

实际应用

在工业界的代码自动生成系统优化中，CoDelusion数据集被广泛用于质量监控模块的训练与测试。科技企业利用其多模型对比特性，筛选生成效果最优的LLM进行产品集成。教育机构则借助该数据集构建编程辅助工具的防幻觉机制，确保向学习者推荐的代码示例具有功能正确性。开源社区更将其作为基准测试集，持续跟踪各LLM的代码生成能力演进。

衍生相关工作

基于CoDelusion的标注体系，学术界衍生出CodeBERT-FTD等新型检测模型，在EMNLP等顶会上发表多篇标志性成果。微软研究院开发的HallucinationTracker工具直接采用该数据集的分类标准，成为IDE插件的行业标杆。后续研究如HalluCode等扩展数据集，新增了跨语言代码幻觉分析维度，形成持续迭代的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集