five

CoDelusion

收藏
github2025-05-30 更新2025-05-31 收录
下载链接:
https://github.com/CoDelusion-Dataset/CoDelusion
下载链接
链接失效反馈
官方服务:
资源简介:
我们引入了**CoDelusion**,一个大规模、精细注释的代码幻觉数据集,包含由六个主流LLM为500个函数级编程问题生成的15,000个代码样本。通过对生成的代码进行开放编码,我们建立了一个全面的代码幻觉分类框架,并对所有样本进行了细粒度、多标签注释,与之前工作中采用的粗糙、单标签方案形成对比。

We introduce **CoDelusion**, a large-scale, finely annotated code delusion dataset containing 15,000 code samples generated by six mainstream LLMs for 500 function-level programming problems. Through open-coding the generated code, we establish a comprehensive code delusion classification framework and perform fine-grained, multi-label annotations on all samples, contrasting with the coarse, single-label approach used in previous work.
创建时间:
2025-05-27
原始信息汇总

CoDelusion数据集概述

数据集简介

  • 名称:CoDelusion
  • 规模:包含15,000个代码样本
  • 来源:由6个主流LLM针对500个函数级编程问题生成
  • 特点:精细标注的代码幻觉数据集

数据集内容

  1. 代码样本

    • 来自多个LLM的代码生成实例
    • 包含测试结果和执行结果
    • 人工标注的幻觉标签
    • 多模型、多样本的比较数据
  2. 标注特点

    • 采用细粒度、多标签标注方案
    • 建立全面的代码幻觉分类框架

项目结构

  1. 数据集目录./dataset/

    • 存储代码生成幻觉数据集
    • 包含详细文档:https://github.com/CoDelusion-Dataset/CoDelusion/blob/main/dataset/readme.md
  2. 检测工具

    • CodeBERT-based代码检测器:./llm_code_detection/
    • LLM代码幻觉分类工具:./llm_code_classify/

技术特性

  • 支持模型:DeepSeek、GPT-4、Claude、Llama、Qwen等
  • 功能
    • 提供Python API和命令行接口
    • 生成详细分析报告

使用要求

  • Python 3.6+
  • PyTorch 1.8.0+
  • Transformers 4.5.0+

许可协议

  • MIT License
搜集汇总
数据集介绍
main_image_url
构建方式
在代码生成领域,大型语言模型(LLM)的幻觉问题日益受到关注。CoDelusion数据集通过系统性方法构建,收集了6种主流LLM针对500个函数级编程问题生成的15,000个代码样本。研究团队采用开放式编码技术,建立了全面的代码幻觉分类框架,并对所有样本进行了细粒度的多标签标注,突破了以往研究中粗粒度单标签标注的局限。数据集以JSON格式存储,包含代码生成实例、测试结果、执行结果以及人工标注的幻觉标签等多维度信息。
特点
作为代码生成领域的重要资源,CoDelusion数据集展现出显著特点。其覆盖了DeepSeek、GPT-4、Claude、Llama和Qwen等多种主流LLM的生成结果,实现了多模型横向比较。数据集采用精细的多标签标注体系,能够准确反映代码幻觉的复杂类型。配套提供的CodeBERT检测工具和分类工具链,为研究者提供了从检测到分析的全套解决方案,极大提升了数据集的实用价值。
使用方法
该数据集的使用遵循标准化流程。用户可通过克隆GitHub仓库获取完整资源包,其中包含数据集目录、CodeBERT检测器和幻觉分类工具三个核心组件。安装过程需配置Python3.6+环境和相关依赖库。数据集采用模块化设计,研究者既可整体使用所有标注数据,也能根据需求单独调用检测或分类模块。详细的组件文档提供了API接口和命令行两种调用方式,支持灵活的二次开发和研究验证。
背景与挑战
背景概述
CoDelusion数据集是近年来在大型语言模型(LLM)代码生成研究领域涌现的重要资源,由研究团队于2023年推出。该数据集针对LLM在代码生成过程中产生的幻觉现象,系统性地收集了来自6种主流模型的15,000个代码样本,覆盖500个函数级编程问题。区别于传统粗粒度的单标签标注方案,研究团队通过开放式编码建立了多维度的代码幻觉分类框架,并采用细粒度的多标签标注策略。这一创新性工作为深入理解LLM代码生成缺陷提供了标准化评估基准,显著推动了程序合成与人工智能可靠性交叉领域的研究进展。
当前挑战
在解决代码幻觉检测这一核心问题上,数据集面临着模型输出多样性带来的标注复杂度挑战,不同LLM生成的错误模式呈现显著差异性。构建过程中的主要挑战体现在三个方面:多模型输出结果的标准化对齐需要设计统一的评估框架;细粒度多标签标注体系要求标注者具备专业的代码审查能力;幻觉类型的动态演变特性使得分类体系需要持续迭代更新。这些挑战使得数据集的构建过程远比传统单模态数据集更为复杂,需要平衡标注效率与学术严谨性的双重需求。
常用场景
经典使用场景
在大型语言模型(LLM)生成的代码质量评估领域,CoDelusion数据集凭借其精细标注的15,000个代码样本,成为研究代码幻觉现象的基准工具。该数据集通过六种主流LLM对500个函数级编程问题生成的代码进行多标签分类,为研究者提供了分析不同模型产生代码幻觉模式差异的标准化平台。特别是在对比不同LLM的代码生成可靠性时,该数据集支持从语法错误到逻辑缺陷的多维度评估。
实际应用
在工业界的代码自动生成系统优化中,CoDelusion数据集被广泛用于质量监控模块的训练与测试。科技企业利用其多模型对比特性,筛选生成效果最优的LLM进行产品集成。教育机构则借助该数据集构建编程辅助工具的防幻觉机制,确保向学习者推荐的代码示例具有功能正确性。开源社区更将其作为基准测试集,持续跟踪各LLM的代码生成能力演进。
衍生相关工作
基于CoDelusion的标注体系,学术界衍生出CodeBERT-FTD等新型检测模型,在EMNLP等顶会上发表多篇标志性成果。微软研究院开发的HallucinationTracker工具直接采用该数据集的分类标准,成为IDE插件的行业标杆。后续研究如HalluCode等扩展数据集,新增了跨语言代码幻觉分析维度,形成持续迭代的研究生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作