Collu-Bench

Name: Collu-Bench
Creator: 普渡大学
Published: 2024-10-14 04:41:47
License: 暂无描述

arXiv2024-10-14 更新2024-10-16 收录

下载链接：

https://huggingface.co/datasets/lt-asset/collu-bench

下载链接

链接失效反馈

官方服务：

资源简介：

Collu-Bench是由普渡大学创建的一个用于预测语言模型在代码中产生幻觉的基准数据集。该数据集包含13,234个代码幻觉实例，收集自五个数据集和11个不同的大型语言模型。数据集内容丰富，包括每一步的日志概率、Token类型和执行反馈等详细特征，旨在帮助研究人员深入分析代码幻觉。创建过程中，通过自动化管道处理程序等价性和标识符可行性，确保幻觉Token位置的准确性。Collu-Bench主要应用于代码生成和自动化程序修复任务，旨在解决大型语言模型在代码生成过程中产生的幻觉问题，提高代码的准确性和可靠性。

Collu-Bench is a benchmark dataset developed by Purdue University for predicting hallucinations in code generated by language models. This dataset comprises 13,234 code hallucination instances collected from five datasets and 11 distinct large language models. It includes rich detailed features such as step-by-step log probabilities, Token types, and execution feedback, designed to assist researchers in conducting in-depth analyses of code hallucinations. During its development, an automated pipeline was employed to handle program equivalence and identifier feasibility, ensuring the accuracy of the positions of hallucinatory Tokens. Collu-Bench is primarily applied to code generation and automated program repair tasks, aiming to address the hallucination issues arising during code generation by large language models and improve the accuracy and reliability of generated code.

提供机构：

普渡大学

创建时间：

2024-10-14

搜集汇总

数据集介绍

构建方式

Collu-Bench的构建基于一个自动化的管道，该管道通过处理程序等价性和标识符可行性来收集准确的幻觉标记位置。具体而言，该数据集整合了来自五个数据集和11个多样化的语言模型的13,234个代码幻觉实例。为了更好地理解和预测代码幻觉，Collu-Bench提供了详细的特征，如语言模型输出的每步对数概率、标记类型以及语言模型生成代码的执行反馈，这些信息有助于深入分析代码幻觉的模式。

使用方法

Collu-Bench的使用方法主要包括两个方面：代码幻觉的预测和定位。研究者可以利用数据集中的详细特征，如每步对数概率、标记类型和执行反馈，来训练和评估代码幻觉预测模型。具体任务包括每标记预测和每样本预测，分别针对单个标记和整个代码样本进行幻觉检测。此外，数据集还支持多种数据分割设置，如全合一、每数据集和每语言模型，以适应不同的研究需求和模型训练策略。

背景与挑战

背景概述

Collu-Bench，由普渡大学的Nan Jiang、Qi Li、Lin Tan和Tianyi Zhang等人创建，是一个专注于预测大型语言模型（LLMs）在代码生成和自动化程序修复任务中幻觉现象的基准数据集。该数据集于2024年推出，旨在填补LLMs在代码领域幻觉问题研究中的空白。Collu-Bench包含了从五个数据集和11种不同LLMs中收集的13,234个幻觉实例，提供了详细的特征如每步输出概率、标记类型和执行反馈，以促进对代码幻觉的深入分析和预测技术的发展。

当前挑战

Collu-Bench面临的挑战主要包括两个方面：一是准确识别和定位LLMs在代码生成中的幻觉部分，这需要精细的粒度分析而非整体代码评估；二是构建过程中遇到的挑战，如代码等价性和标识符变异的处理，这些因素增加了自动识别幻觉位置的复杂性。此外，尽管数据集提供了丰富的特征，但如何有效利用这些特征进行准确的幻觉预测仍是一个未解决的问题，现有的预测模型仅能达到22.03%至33.15%的准确率，显示了该任务的巨大改进空间。

常用场景

经典使用场景

Collu-Bench 数据集的经典使用场景在于评估和预测大型语言模型（LLMs）在代码生成（CG）和自动化程序修复（APR）任务中的幻觉现象。通过提供详细的特征，如每一步的输出对数概率、标记类型和执行反馈，Collu-Bench 使研究人员能够深入分析代码幻觉的模式，从而开发出更精确的幻觉预测和定位技术。

解决学术问题

Collu-Bench 解决了在代码生成和修复任务中，大型语言模型生成的代码可能包含幻觉（即看似合理但实际上错误的代码）这一关键学术问题。该数据集通过提供详细的幻觉标记位置和特征，帮助学术界更好地理解和预测代码幻觉，从而推动开发更可靠和高效的代码生成和修复技术。

实际应用

在实际应用中，Collu-Bench 数据集有助于提高代码生成和修复工具的准确性和可靠性。通过识别和预测代码中的幻觉，开发人员可以减少因代码错误导致的软件缺陷和漏洞，从而降低维护成本和提高软件质量。

数据集最近研究