five

Collu-Bench

收藏
arXiv2024-10-14 更新2024-10-16 收录
下载链接:
https://huggingface.co/datasets/lt-asset/collu-bench
下载链接
链接失效反馈
官方服务:
资源简介:
Collu-Bench是由普渡大学创建的一个用于预测语言模型在代码中产生幻觉的基准数据集。该数据集包含13,234个代码幻觉实例,收集自五个数据集和11个不同的大型语言模型。数据集内容丰富,包括每一步的日志概率、Token类型和执行反馈等详细特征,旨在帮助研究人员深入分析代码幻觉。创建过程中,通过自动化管道处理程序等价性和标识符可行性,确保幻觉Token位置的准确性。Collu-Bench主要应用于代码生成和自动化程序修复任务,旨在解决大型语言模型在代码生成过程中产生的幻觉问题,提高代码的准确性和可靠性。

Collu-Bench is a benchmark dataset developed by Purdue University for predicting hallucinations in code generated by language models. This dataset comprises 13,234 code hallucination instances collected from five datasets and 11 distinct large language models. It includes rich detailed features such as step-by-step log probabilities, Token types, and execution feedback, designed to assist researchers in conducting in-depth analyses of code hallucinations. During its development, an automated pipeline was employed to handle program equivalence and identifier feasibility, ensuring the accuracy of the positions of hallucinatory Tokens. Collu-Bench is primarily applied to code generation and automated program repair tasks, aiming to address the hallucination issues arising during code generation by large language models and improve the accuracy and reliability of generated code.
提供机构:
普渡大学
创建时间:
2024-10-14
搜集汇总
数据集介绍
main_image_url
构建方式
Collu-Bench的构建基于一个自动化的管道,该管道通过处理程序等价性和标识符可行性来收集准确的幻觉标记位置。具体而言,该数据集整合了来自五个数据集和11个多样化的语言模型的13,234个代码幻觉实例。为了更好地理解和预测代码幻觉,Collu-Bench提供了详细的特征,如语言模型输出的每步对数概率、标记类型以及语言模型生成代码的执行反馈,这些信息有助于深入分析代码幻觉的模式。
使用方法
Collu-Bench的使用方法主要包括两个方面:代码幻觉的预测和定位。研究者可以利用数据集中的详细特征,如每步对数概率、标记类型和执行反馈,来训练和评估代码幻觉预测模型。具体任务包括每标记预测和每样本预测,分别针对单个标记和整个代码样本进行幻觉检测。此外,数据集还支持多种数据分割设置,如全合一、每数据集和每语言模型,以适应不同的研究需求和模型训练策略。
背景与挑战
背景概述
Collu-Bench,由普渡大学的Nan Jiang、Qi Li、Lin Tan和Tianyi Zhang等人创建,是一个专注于预测大型语言模型(LLMs)在代码生成和自动化程序修复任务中幻觉现象的基准数据集。该数据集于2024年推出,旨在填补LLMs在代码领域幻觉问题研究中的空白。Collu-Bench包含了从五个数据集和11种不同LLMs中收集的13,234个幻觉实例,提供了详细的特征如每步输出概率、标记类型和执行反馈,以促进对代码幻觉的深入分析和预测技术的发展。
当前挑战
Collu-Bench面临的挑战主要包括两个方面:一是准确识别和定位LLMs在代码生成中的幻觉部分,这需要精细的粒度分析而非整体代码评估;二是构建过程中遇到的挑战,如代码等价性和标识符变异的处理,这些因素增加了自动识别幻觉位置的复杂性。此外,尽管数据集提供了丰富的特征,但如何有效利用这些特征进行准确的幻觉预测仍是一个未解决的问题,现有的预测模型仅能达到22.03%至33.15%的准确率,显示了该任务的巨大改进空间。
常用场景
经典使用场景
Collu-Bench 数据集的经典使用场景在于评估和预测大型语言模型(LLMs)在代码生成(CG)和自动化程序修复(APR)任务中的幻觉现象。通过提供详细的特征,如每一步的输出对数概率、标记类型和执行反馈,Collu-Bench 使研究人员能够深入分析代码幻觉的模式,从而开发出更精确的幻觉预测和定位技术。
解决学术问题
Collu-Bench 解决了在代码生成和修复任务中,大型语言模型生成的代码可能包含幻觉(即看似合理但实际上错误的代码)这一关键学术问题。该数据集通过提供详细的幻觉标记位置和特征,帮助学术界更好地理解和预测代码幻觉,从而推动开发更可靠和高效的代码生成和修复技术。
实际应用
在实际应用中,Collu-Bench 数据集有助于提高代码生成和修复工具的准确性和可靠性。通过识别和预测代码中的幻觉,开发人员可以减少因代码错误导致的软件缺陷和漏洞,从而降低维护成本和提高软件质量。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)的广泛应用中,代码生成和自动程序修复任务中的幻觉问题日益受到关注。Collu-Bench数据集的最新研究方向集中在预测和定位LLMs在代码生成过程中的幻觉,特别是在代码生成(CG)和自动程序修复(APR)任务中。该数据集通过收集来自11种不同LLMs的13,234个幻觉实例,提供了详细的特征分析,如每步输出概率、标记类型和执行反馈,以深入理解代码幻觉的模式。研究者们正在探索传统机器学习技术和神经网络模型在预测和定位代码幻觉中的应用,初步结果显示,尽管现有方法的准确率在22.03%到33.15%之间,但这一领域仍存在巨大的改进空间。
相关研究论文
  • 1
    Collu-Bench: A Benchmark for Predicting Language Model Hallucinations in Code普渡大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作