ONEBench

Name: ONEBench
Creator: 图宾根人工智能中心，图宾根大学，开放科学集体，剑桥大学
Published: 2024-12-10 02:37:14
License: 暂无描述

arXiv2024-12-10 更新2024-12-11 收录

下载链接：

http://arxiv.org/abs/2412.06745v1

下载链接

链接失效反馈

官方服务：

资源简介：

ONEBench是一个开放式的评估基准，旨在通过整合多个评估数据集的样本，形成一个不断扩展的样本池，用于生成定制化的开放式评估基准。该数据集通过聚合和重用不同测试集的样本，能够评估基础模型的多样化能力，并减少数据集偏差。ONEBench的创建过程涉及从多个来源收集数据样本，并通过元数据描述其能力和特性。该数据集主要应用于基础模型的开放式能力评估，旨在解决传统固定测试数据集在评估基础模型开放式能力方面的不足。

ONEBench is an open-ended evaluation benchmark that constructs an expanding sample pool by integrating samples from multiple evaluation datasets to generate customized open-ended evaluation benchmarks. By aggregating and reusing samples from various test sets, it enables the assessment of the diverse capabilities of foundation models while mitigating dataset bias. The creation of ONEBench entails collecting data samples from diverse sources and describing their capabilities and characteristics via metadata. This benchmark is primarily applied to the open-ended capability evaluation of foundation models, aiming to address the limitations of traditional fixed test datasets in evaluating the open-ended capabilities of foundation models.

提供机构：

图宾根人工智能中心，图宾根大学，开放科学集体，剑桥大学

创建时间：

2024-12-10

搜集汇总

数据集介绍

构建方式

ONEBench 数据集通过整合多个独立的评估数据集，构建了一个统一的、不断扩展的样本池。该数据集的构建方式基于动态样本级评估，允许用户根据特定能力需求从样本池中生成定制的开放式评估基准。通过聚合和重用不同测试集中的样本，ONEBench 能够评估模型在原始测试集之外的多样化能力，同时减少数据集偏差和过拟合问题。

使用方法

用户可以通过 ONEBench 数据集进行个性化评估，首先通过语义搜索和结构化查询从数据池中检索相关样本，然后使用 Plackett-Luce 模型对样本级测量进行聚合，生成模型排名。此外，用户还可以贡献新的评估样本和模型测量结果，进一步扩展数据集的多样性和覆盖范围。ONEBench 的灵活性使其能够适应不同用户的需求，支持动态生成和持续更新的评估基准。

背景与挑战

背景概述

ONEBench，由Tübingen AI Center、Open-Ψ (Open-Sci) Collective和University of Cambridge的研究人员共同开发，旨在解决传统固定测试数据集在评估基础模型开放式能力方面的不足。该数据集于2024年提出，核心研究问题是如何在开放式能力背景下进行有效的模型评估。ONEBench通过整合多个评估数据集，形成一个不断扩展的样本池，允许用户根据特定能力生成自定义的评估基准。这一方法不仅减少了数据集偏差，还通过样本的跨测试集复用，更好地捕捉了现实世界的多样性。ONEBench的提出对基础模型的开放式能力评估具有重要影响，推动了模型评估从任务特定基准向动态、多维评估的转变。

当前挑战

ONEBench在构建过程中面临两大主要挑战：异质性和不完整性。异质性指的是模型测量涉及不同类型的指标，如二元、数值和序数数据，这使得跨模型的测量聚合变得复杂。不完整性则源于模型在不同测试数据子集上的评估，导致直接聚合结果不公平且不准确。为应对这些挑战，研究团队探索了基于社会选择理论的算法，将数据样本视为投票者，模型视为候选者，通过将所有测量转换为序数排名，利用Plackett-Luce框架进行聚合，确保了模型排名的理论可靠性和实践有效性。此外，ONEBench还需应对样本效率和数据缺失问题，确保在数据不完整的情况下仍能生成准确的模型排名。

常用场景

经典使用场景

ONEBench 最经典的使用场景在于其能够动态生成针对特定能力的评估基准。通过整合多个独立的评估数据集，ONEBench 允许用户根据感兴趣的能力从样本池中生成自定义的评估基准。这种灵活性不仅能够评估模型在特定任务上的表现，还能有效避免数据集偏差和过拟合问题，从而提供更全面、多样化的模型评估。

解决学术问题

ONEBench 解决了传统固定测试数据集在评估基础模型开放能力时的不足。传统基准测试通常依赖于固定的训练和测试集，无法有效评估模型在零样本或多任务场景下的表现。ONEBench 通过动态样本级评估，能够持续更新样本池，支持多样化的能力评估，并解决了数据集异质性和不完整性带来的挑战，为模型评估提供了更可靠的解决方案。

实际应用

ONEBench 在实际应用中具有广泛的潜力，尤其是在需要个性化模型评估的场景中。例如，生物化学实验室的研究人员可以通过 ONEBench 生成针对免疫学或抗体设计任务的评估基准，从而选择最适合的模型。此外，ONEBench 还可以应用于多模态模型的评估，帮助企业和研究机构在复杂的视觉和语言任务中选择最佳模型。

数据集最近研究