five

ArxivRoll

收藏
arXiv2025-07-25 更新2025-07-29 收录
下载链接:
https://github.com/liangzid/ArxivRoll/
下载链接
链接失效反馈
官方服务:
资源简介:
ArxivRoll 是一个动态评估框架,旨在评估大型语言模型(LLMs)的实际性能和过度估计。该框架包括两个关键组件:SCP(排序、完形填空和预测),一个自动生成私有测试案例的生成器,以及 Rugged Scores(RS),一种衡量公共基准污染和训练偏差比例的指标。ArxivRoll 使用来自 ArXiv 的最新文章每六个月构建一个新的基准,用于对 LLM 性能进行一次性评估。
提供机构:
香港理工大学
创建时间:
2025-07-25
搜集汇总
数据集介绍
main_image_url
构建方式
ArxivRoll数据集的构建采用了动态评估框架,其核心在于SCP(Sequencing, Cloze, and Prediction)方法,该方法从ArXiv最新发表的论文中自动生成测试用例。通过筛选文本片段并应用三种任务格式(排序、填空和预测),确保测试用例的多样性和挑战性。此外,数据集每六个月更新一次,利用未公开的论文内容构建私有基准,有效避免了数据污染和模型过拟合问题。
特点
ArxivRoll数据集的特点在于其动态性和隐私性。通过SCP方法生成的测试用例不仅覆盖多个学科领域,还具备高度的客观性和难度,能够全面评估大语言模型的知识和推理能力。Rugged Scores(RS)指标的引入进一步量化了模型在公共基准上的过估计程度,为模型性能评估提供了更可靠的依据。
使用方法
使用ArxivRoll数据集时,首先需将模型在公共基准和私有基准上进行性能评估,随后通过RS指标计算模型在两者之间的表现差异。私有基准在评估后会被公开标记为过期,以确保每次评估的新鲜性和可靠性。该数据集适用于系统性评估大语言模型的真实能力及其在公共基准上的过估计情况。
背景与挑战
背景概述
ArxivRoll是由香港理工大学的研究团队于2025年提出的动态评估框架,旨在解决大型语言模型(LLMs)评估中的高估问题。该数据集基于密码学中的一次性密码本(One-Time Pad)原理,通过SCP(Sequencing, Cloze, Prediction)方法从arXiv最新论文自动生成测试用例,构建私有基准。其核心创新在于Rugged Scores(RS)指标,可量化模型在公共基准上的污染程度和训练偏差。作为首个系统测量LLMs高估程度的工作,ArxivRoll每六个月更新一次基准,为LLMs能力评估提供了动态、透明且可复现的新范式,对推动可信AI评估具有重要意义。
当前挑战
ArxivRoll面临的挑战主要体现在两个方面:领域问题方面,需解决LLMs通过数据污染(记忆测试样本)和领域偏置训练(过度优化特定任务)导致的评估失真问题;构建过程方面,需确保生成的私有基准具有足够难度和代表性,同时满足保密性(避免训练泄露)、客观性(减少主观偏差)和全面性(覆盖多领域)要求。技术实现上,如何从arXiv论文自动生成高质量测试样本,以及设计可解释的RS指标来量化高估程度,都是关键挑战。此外,还需保持基准动态更新与历史评估结果的可比性。
常用场景
经典使用场景
ArxivRoll数据集在评估大型语言模型(LLMs)时展现出其独特价值。该数据集通过动态生成私有测试用例,有效避免了传统公共基准测试中常见的数据污染和训练偏差问题。其经典使用场景包括对LLMs在数学推理、计算机科学、经济学等多个领域的真实能力进行一次性评估,确保模型性能的准确性和可靠性。
实际应用
在实际应用中,ArxivRoll被广泛应用于LLMs的开发和优化过程中。例如,模型开发者可以利用该数据集检测其模型是否存在对特定公共基准的过拟合现象,从而调整训练策略。此外,学术机构和企业在招聘或采购LLMs时,也可借助ArxivRoll进行更客观的性能评估,避免因数据污染导致的误判。
衍生相关工作
ArxivRoll的推出催生了一系列相关研究工作。例如,基于其SCP方法,研究者开发了更多领域的动态评估框架;其RS指标也被改进用于量化其他类型的模型偏差。此外,该数据集启发了对LLMs评估透明性和可复现性的深入探讨,推动了如Chatbot Arena等新型评估平台的创新设计。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作