CoDelusion
收藏github2025-05-30 更新2025-05-31 收录
下载链接:
https://github.com/CoDelusion-Dataset/CoDelusion
下载链接
链接失效反馈官方服务:
资源简介:
我们引入了**CoDelusion**,一个大规模、精细注释的代码幻觉数据集,包含由六个主流LLM为500个函数级编程问题生成的15,000个代码样本。通过对生成的代码进行开放编码,我们建立了一个全面的代码幻觉分类框架,并对所有样本进行了细粒度、多标签注释,与之前工作中采用的粗糙、单标签方案形成对比。
We introduce **CoDelusion**, a large-scale, finely annotated code delusion dataset containing 15,000 code samples generated by six mainstream LLMs for 500 function-level programming problems. Through open-coding the generated code, we establish a comprehensive code delusion classification framework and perform fine-grained, multi-label annotations on all samples, contrasting with the coarse, single-label approach used in previous work.
创建时间:
2025-05-27
原始信息汇总
CoDelusion数据集概述
数据集简介
- 名称:CoDelusion
- 规模:包含15,000个代码样本
- 来源:由6个主流LLM针对500个函数级编程问题生成
- 特点:精细标注的代码幻觉数据集
数据集内容
-
代码样本:
- 来自多个LLM的代码生成实例
- 包含测试结果和执行结果
- 人工标注的幻觉标签
- 多模型、多样本的比较数据
-
标注特点:
- 采用细粒度、多标签标注方案
- 建立全面的代码幻觉分类框架
项目结构
-
数据集目录:
./dataset/- 存储代码生成幻觉数据集
- 包含详细文档:https://github.com/CoDelusion-Dataset/CoDelusion/blob/main/dataset/readme.md
-
检测工具:
- CodeBERT-based代码检测器:
./llm_code_detection/ - LLM代码幻觉分类工具:
./llm_code_classify/
- CodeBERT-based代码检测器:
技术特性
- 支持模型:DeepSeek、GPT-4、Claude、Llama、Qwen等
- 功能:
- 提供Python API和命令行接口
- 生成详细分析报告
使用要求
- Python 3.6+
- PyTorch 1.8.0+
- Transformers 4.5.0+
许可协议
- MIT License
搜集汇总
数据集介绍

构建方式
在代码生成领域,大型语言模型(LLM)的幻觉问题日益受到关注。CoDelusion数据集通过系统性方法构建,收集了6种主流LLM针对500个函数级编程问题生成的15,000个代码样本。研究团队采用开放式编码技术,建立了全面的代码幻觉分类框架,并对所有样本进行了细粒度的多标签标注,突破了以往研究中粗粒度单标签标注的局限。数据集以JSON格式存储,包含代码生成实例、测试结果、执行结果以及人工标注的幻觉标签等多维度信息。
特点
作为代码生成领域的重要资源,CoDelusion数据集展现出显著特点。其覆盖了DeepSeek、GPT-4、Claude、Llama和Qwen等多种主流LLM的生成结果,实现了多模型横向比较。数据集采用精细的多标签标注体系,能够准确反映代码幻觉的复杂类型。配套提供的CodeBERT检测工具和分类工具链,为研究者提供了从检测到分析的全套解决方案,极大提升了数据集的实用价值。
使用方法
该数据集的使用遵循标准化流程。用户可通过克隆GitHub仓库获取完整资源包,其中包含数据集目录、CodeBERT检测器和幻觉分类工具三个核心组件。安装过程需配置Python3.6+环境和相关依赖库。数据集采用模块化设计,研究者既可整体使用所有标注数据,也能根据需求单独调用检测或分类模块。详细的组件文档提供了API接口和命令行两种调用方式,支持灵活的二次开发和研究验证。
背景与挑战
背景概述
CoDelusion数据集是近年来在大型语言模型(LLM)代码生成研究领域涌现的重要资源,由研究团队于2023年推出。该数据集针对LLM在代码生成过程中产生的幻觉现象,系统性地收集了来自6种主流模型的15,000个代码样本,覆盖500个函数级编程问题。区别于传统粗粒度的单标签标注方案,研究团队通过开放式编码建立了多维度的代码幻觉分类框架,并采用细粒度的多标签标注策略。这一创新性工作为深入理解LLM代码生成缺陷提供了标准化评估基准,显著推动了程序合成与人工智能可靠性交叉领域的研究进展。
当前挑战
在解决代码幻觉检测这一核心问题上,数据集面临着模型输出多样性带来的标注复杂度挑战,不同LLM生成的错误模式呈现显著差异性。构建过程中的主要挑战体现在三个方面:多模型输出结果的标准化对齐需要设计统一的评估框架;细粒度多标签标注体系要求标注者具备专业的代码审查能力;幻觉类型的动态演变特性使得分类体系需要持续迭代更新。这些挑战使得数据集的构建过程远比传统单模态数据集更为复杂,需要平衡标注效率与学术严谨性的双重需求。
常用场景
经典使用场景
在大型语言模型(LLM)生成的代码质量评估领域,CoDelusion数据集凭借其精细标注的15,000个代码样本,成为研究代码幻觉现象的基准工具。该数据集通过六种主流LLM对500个函数级编程问题生成的代码进行多标签分类,为研究者提供了分析不同模型产生代码幻觉模式差异的标准化平台。特别是在对比不同LLM的代码生成可靠性时,该数据集支持从语法错误到逻辑缺陷的多维度评估。
实际应用
在工业界的代码自动生成系统优化中,CoDelusion数据集被广泛用于质量监控模块的训练与测试。科技企业利用其多模型对比特性,筛选生成效果最优的LLM进行产品集成。教育机构则借助该数据集构建编程辅助工具的防幻觉机制,确保向学习者推荐的代码示例具有功能正确性。开源社区更将其作为基准测试集,持续跟踪各LLM的代码生成能力演进。
衍生相关工作
基于CoDelusion的标注体系,学术界衍生出CodeBERT-FTD等新型检测模型,在EMNLP等顶会上发表多篇标志性成果。微软研究院开发的HallucinationTracker工具直接采用该数据集的分类标准,成为IDE插件的行业标杆。后续研究如HalluCode等扩展数据集,新增了跨语言代码幻觉分析维度,形成持续迭代的研究生态。
以上内容由遇见数据集搜集并总结生成



