five

AntiLeak-Bench|大语言模型评估数据集|数据污染数据集

收藏
arXiv2024-12-18 更新2024-12-20 收录
大语言模型评估
数据污染
下载链接:
https://github.com/bobxwu/AntiLeak-Bench
下载链接
链接失效反馈
资源简介:
AntiLeak-Bench是由南洋理工大学和加利福尼亚大学圣塔芭芭拉分校等机构联合创建的一个自动化反泄漏基准测试框架。该数据集旨在通过构建包含最新现实世界知识的样本,确保大语言模型(LLMs)的严格无污染评估。数据集通过自动化的工作流程构建,无需人工干预,支持多语言评估,并能够无缝更新以适应新兴的LLMs。AntiLeak-Bench主要应用于大语言模型的评估,旨在解决数据污染问题,确保评估的可靠性和有效性。
提供机构:
南洋理工大学, 加利福尼亚大学圣塔芭芭拉分校, 新加坡国立大学, 上海交通大学, 亚利桑那大学
创建时间:
2024-12-18
AI搜集汇总
数据集介绍
main_image_url
构建方式
AntiLeak-Bench 数据集通过自动化的反泄漏基准构建框架来创建,旨在确保测试样本的严格无污染性。该数据集的构建基于更新后的真实世界知识,这些知识在大型语言模型(LLMs)的训练集中不存在。具体而言,数据集利用了Wikidata和Wikipedia的最新修订历史,通过识别在LLMs知识截止时间之后更新的知识,并构建相应的问答样本。这些样本不仅包含更新的知识,还附带了来自Wikipedia的真实世界支持文档,确保了样本的准确性和无污染性。整个构建过程完全自动化,无需人工干预,从而显著降低了基准维护的成本。
特点
AntiLeak-Bench 数据集的主要特点在于其严格的无污染性、自动化构建流程以及多语言支持。首先,数据集通过识别LLMs训练集中不存在的更新知识,确保了测试样本的无污染性,避免了数据泄露问题。其次,数据集的构建和更新完全自动化,无需人工干预,这使得基准能够快速适应新兴的LLMs。此外,数据集支持多语言评估,能够生成多种语言的样本,从而全面评估LLMs在不同语言环境下的表现。最后,数据集基于真实世界的Wikidata和Wikipedia数据,确保了样本的实用性和真实性。
使用方法
AntiLeak-Bench 数据集主要用于评估大型语言模型(LLMs)在无污染环境下的表现。用户可以通过该数据集对LLMs进行严格的测试,评估其在单跳和多跳问答任务中的表现。数据集提供了两种常见的问答格式:生成式和多选题式。生成式问答要求模型根据提供的上下文生成答案,而多选题式则要求模型从多个选项中选择正确答案。用户可以根据不同的任务需求选择合适的问答格式,并通过添加干扰文档来增加任务的难度。此外,数据集支持多语言评估,用户可以针对不同语言的样本进行测试,以评估LLMs在多语言环境下的表现。
背景与挑战
背景概述
近年来,大型语言模型(LLMs)在多个领域展现出卓越的能力,推动了对其性能评估的需求。为应对这一需求,AntiLeak-Bench数据集应运而生,旨在通过自动构建无污染的基准测试,解决数据污染问题。该数据集由南洋理工大学、加州大学圣巴巴拉分校、新加坡国立大学等机构的研究人员共同开发,核心目标是确保评估数据的独立性,避免测试数据被纳入模型的训练集。AntiLeak-Bench通过识别并构建包含最新现实知识的样本,确保这些知识不在LLMs的训练集中,从而实现严格的无污染评估。
当前挑战
AntiLeak-Bench数据集的构建面临两大主要挑战。首先,如何确保新收集的数据不包含已存在于LLMs训练集中的知识,避免数据污染。其次,现有基准更新依赖大量人工劳动,导致维护成本高昂且难以频繁更新。为应对这些挑战,AntiLeak-Bench设计了全自动的工作流程,无需人工干预,显著降低了维护成本,并确保基准能够适应新兴LLMs的需求。此外,数据集还需应对多语言评估的复杂性,以及如何从真实世界数据源中提取准确且无偏的样本。
常用场景
经典使用场景
AntiLeak-Bench 数据集的经典使用场景主要集中在大型语言模型(LLMs)的评估中,特别是在防止数据污染的背景下。该数据集通过自动构建包含最新现实世界知识的测试样本,确保这些样本在LLMs的训练集中不存在,从而实现严格的无污染评估。这种评估方法特别适用于那些需要动态更新知识库的场景,如实时问答系统、代码生成平台等,确保模型在面对新知识时的表现能够得到准确评估。
衍生相关工作
AntiLeak-Bench 数据集的提出催生了一系列相关研究工作,特别是在大型语言模型的无污染评估领域。例如,一些研究者基于该数据集开发了新的评估框架,进一步优化了测试样本的构建流程,提升了评估的自动化程度。此外,还有研究探讨了如何在多语言环境下应用AntiLeak-Bench,以评估模型在不同语言中的表现。这些衍生工作不仅扩展了AntiLeak-Bench的应用范围,还为LLMs的评估提供了更为全面和深入的视角。
数据集最近研究
最新研究方向
近年来,大型语言模型(LLMs)在多个领域展现出卓越能力,但其评估过程中数据污染问题日益突出。AntiLeak-Bench 数据集通过自动化构建严格无污染的基准测试,解决了现有基准测试中数据污染和人工维护成本高的问题。该数据集通过识别并构建包含最新现实世界知识的样本,确保这些知识不在LLMs的训练集中,从而实现严格的无污染评估。此外,AntiLeak-Bench 设计了全自动的工作流程,无需人工干预,显著降低了基准测试的维护成本,使其能够适应不断涌现的LLMs。该数据集的研究不仅揭示了数据污染对模型性能评估的影响,还为未来LLMs的无污染评估提供了可靠的测试平台。
相关研究论文
  • 1
    AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge南洋理工大学, 加利福尼亚大学圣塔芭芭拉分校, 新加坡国立大学, 上海交通大学, 亚利桑那大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

LendingClub Loan Data

Loan & Rejects (2007 to 2019Q3)

kaggle 收录

望诊影像数据集及诊断文本数据集

中医望诊数据集包含舌诊图片3000张、面诊图片2000张、目诊图片3000张,舌诊图片的内容部分为舌头(属口颌系统),面诊图片的内容部分包括了面和唇(属其他系统)、眼睛部分做了脱敏处理,目诊图片的内容部分为眼睛(属感觉系统)。该数据集提供舌诊图像的齿痕、裂纹、点刺、苔色、胖瘦的标注信息;以及面诊图像的唇色、唇形、面神的标注信息;目诊图像的特征属性包括颜色名称、颜色HSL值、大小、特征出处。

国家人口健康科学数据中心 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录