LessLeak-Bench

Name: LessLeak-Bench
Creator: 新加坡管理大学, 中国东南大学
Published: 2025-02-10 15:33:49
License: 暂无描述

arXiv2025-02-10 更新2025-02-26 收录

下载链接：

http://arxiv.org/abs/2502.06215v1

下载链接

链接失效反馈

官方服务：

资源简介：

LessLeak-Bench是一个由新加坡管理大学研究人员创建的数据集，旨在研究大型语言模型（LLM）在软件工程（SE）任务中的数据泄露问题。该数据集包含83个SE基准，涵盖了Java、C/C++和Python三种广泛使用的编程语言。通过使用高效的数据检测算法MinHash+LSH，研究团队识别了SE基准数据与LLM预训练数据之间的潜在重复对，并通过人工标注确认了真正的重复数据，揭示了SE基准数据泄露的问题。该数据集的创建旨在为未来的研究提供更可靠的LLM评估。

LessLeak-Bench is a dataset created by researchers from Singapore Management University, aiming to investigate data leakage issues of Large Language Models (LLMs) in software engineering (SE) tasks. This dataset comprises 83 SE benchmarks covering three widely used programming languages: Java, C/C++, and Python. By leveraging the efficient data detection algorithm MinHash+LSH, the research team identified potential duplicate pairs between SE benchmark datasets and LLM pre-training corpora, and confirmed the genuine duplicate instances via manual annotation, thereby revealing the prevalent data leakage problem in SE benchmarks. The development of this dataset is designed to provide more reliable support for LLM evaluation in future research.

提供机构：

新加坡管理大学, 中国东南大学

创建时间：

2025-02-10

搜集汇总

数据集介绍

构建方式

LessLeak-Bench 数据集的构建方法涉及对 83 个软件工程基准的广泛分析，重点关注大型语言模型（LLMs）中的数据泄露问题。研究者采用了一种名为 DetectLeak 的多阶段方法来检测数据泄露。该方法首先使用自动化的近似重复数据检测算法 MinHash+LSH 来识别潜在的重复对，然后对检测到的潜在重复对进行人工标注，以确认真实重复的数据样本。通过这种方式，研究者能够识别并量化了 Python、Java 和 C/C++ 基准中的数据泄露程度。

使用方法

LessLeak-Bench 数据集的使用方法包括以下几个步骤：首先，研究者需要使用 DetectLeak 框架来检测数据泄露，包括自动化的近似重复数据检测和人工标注。然后，他们可以使用 LessLeak-Bench 数据集来评估 LLMs，确保在评估过程中避免了数据泄露的影响。此外，研究者还可以使用 AutoDetectLeak-Bench 数据集来评估新的数据泄露检测方法，特别是在缺乏 LLM 预训练数据的情况下。LessLeak-Bench 数据集为研究者提供了一个更可靠和准确的基准，有助于推动 LLMs 在软件工程领域的研究和应用。

背景与挑战

背景概述

随着大型语言模型（LLMs）在软件工程（SE）任务中的广泛应用，如代码生成和自动程序修复，其对于广泛且往往未公开的预训练数据集的依赖引发了关于数据泄露的显著担忧。数据泄露是指评估基准数据在模型构建阶段无意中被LLMs“看到”的现象。数据泄露问题可能会严重损害基于LLMs的研究和评估的有效性。尽管LLMs在SE社区中的应用日益增加，但还没有全面的研究来评估SE基准数据集中数据泄露的程度。为了填补这一空白，这篇论文首次对83个SE基准数据集进行了大规模分析。我们系统地调查了流行的SE基准数据集是否以及多大程度上被包含在LLMs的预训练数据中。我们的方法涉及使用高效的近似重复数据检测算法MinHash+LSH来识别SE基准数据和LLMs预训练数据集之间潜在的重复对。随后，我们对这些潜在的重复对进行了广泛的手动标注，以识别真正的重复。这些真正的重复揭示了SE基准数据泄露的情况。我们的结果表明，SE基准数据集中的数据泄露通常很小，Python、Java和C/C++基准的平均泄露率分别为4.8%、2.8%和0.7%。然而，一些基准显示出相对较高的泄露率，这引起了人们对评估偏差的关注。例如，QuixBugs和BigCloneBench的泄露率分别为100.0%和55.7%。此外，我们还观察到数据泄露对LLMs评估有重大影响。在APPS基准中，StarCoder-7B在泄露样本上的Pass@1得分比在非泄露样本上高4.9倍，突出了泄露基准数据导致膨胀指标的风险。我们还确定了导致高数据泄露的关键原因，例如直接包含基准数据在预训练数据集中以及使用如LeetCode等编码平台。为了解决数据泄露问题，我们引入了LessLeak-Bench，这是一个新的基准，它从83个SE基准数据集中删除了所有识别出的泄露样本，从而在未来研究中能够更可靠地评估LLMs。我们的研究加深了对SE基准数据集中数据泄露的理解，并为未来涉及LLMs的SE研究提供了宝贵的见解。

当前挑战

数据泄露问题的挑战在于，LLMs在预训练阶段可能会无意中接触到SE基准数据集，从而影响评估的有效性。这种影响体现在两个方面：首先，它使得难以判断LLMs方法的显著性能是由于真正的创新还是由于之前接触过SE基准数据而导致的膨胀有效性指标；其次，它导致LLMs方法和非学习技术（如传统的程序分析方法）之间不公平的比较，后者不依赖于训练数据，没有机会从泄露数据中学习。此外，构建LessLeak-Bench过程中也面临挑战，需要识别和删除所有已知的泄露样本，确保基准数据的清洁性和可靠性。

常用场景

经典使用场景

LessLeak-Bench 数据集主要用于软件工程领域的大语言模型（LLMs）研究，特别是在代码生成和自动程序修复等任务中。该数据集通过系统地检测和移除数据泄漏样本，为研究者提供了一个更为可靠的评估平台，确保了评估结果的公正性和有效性。

解决学术问题

LessLeak-Bench 数据集解决了数据泄漏对大语言模型评估的严重影响问题。数据泄漏可能导致评估结果失真，使研究者难以准确判断模型的实际性能。LessLeak-Bench 数据集通过移除泄漏样本，提高了评估结果的准确性和可靠性，为研究者提供了更为公正的评价平台。

实际应用

LessLeak-Bench 数据集在实际应用中，为软件工程领域的研究者和开发者提供了一个更为可靠的评估工具。通过使用 LessLeak-Bench 数据集，研究者可以更准确地评估大语言模型在代码生成、自动程序修复等任务中的性能，从而推动相关技术的发展和应用。

数据集最近研究