SOS-BENCH

Name: SOS-BENCH
Creator: Arthur AI, NYU, Columbia University
Published: 2024-09-24 01:58:07
License: 暂无描述

arXiv2024-09-24 更新2024-09-26 收录

下载链接：

https://anonymous.4open.science/r/mismo-bench-587D/readme.md

下载链接

链接失效反馈

官方服务：

资源简介：

SOS-BENCH是由Arthur AI、NYU和Columbia University共同创建的，用于评估大型语言模型（LLM）对齐性能的标准化、可重复的元基准。该数据集整合了19个现有的世界知识、指令遵循和安全基准，旨在提供一个全面的模型性能视图。数据集中的每个问题都包含真实的答案，并通过标准化准确率的平均值来报告聚合结果。SOS-BENCH的应用领域主要集中在大型语言模型的对齐研究，旨在解决模型在安全性、世界知识和指令遵循方面的具体问题。

SOS-BENCH is a standardized, reproducible meta-benchmark co-created by Arthur AI, New York University (NYU), and Columbia University for evaluating the alignment performance of Large Language Models (LLMs). This dataset integrates 19 existing world knowledge, instruction-following, and safety benchmarks, aiming to provide a comprehensive view of model performance. Each question in the dataset includes a ground-truth answer, and aggregated results are reported via the average of standardized accuracy scores. The primary application scope of SOS-BENCH focuses on alignment research for large language models, with the goal of addressing specific issues related to model safety, world knowledge, and instruction following.

提供机构：

Arthur AI, NYU, Columbia University

创建时间：

2024-09-24

搜集汇总

数据集介绍

构建方式

SOS-BENCH数据集通过整合19个现有的世界知识、指令遵循和安全基准，构建了一个全面的标准化LLM元基准。该数据集的构建旨在评估LLM在帮助性、诚实性和无害性（HHH）原则上的进展。数据集中的每个问题都包含真实答案，并通过标准化准确率的平均值进行聚合，提供95%的置信区间。

特点

SOS-BENCH数据集的特点在于其大规模和标准化，是目前最大的可重复LLM元基准之一。它不仅涵盖了广泛的知识领域和任务类型，还通过具体的真实答案确保了评估的客观性和可靠性。此外，该数据集的设计旨在揭示LLM在不同阶段（如监督微调SFT和偏好优化PO）的性能变化，从而为研究社区提供深入的分析和见解。

使用方法

使用SOS-BENCH数据集时，研究者可以通过评估模型在世界知识、指令遵循和安全三个方面的表现，来衡量其整体对齐性能。数据集提供了详细的基准测试结果和代码库，便于研究者进行复现和进一步分析。此外，SOS-BENCH还鼓励研究社区开发更多针对特定HHH因素的基准，以推动模型对齐研究的进展。

背景与挑战

背景概述

SOS-BENCH数据集由Arthur AI、NYU和Columbia University的研究人员于2022年11月ChatGPT发布后创建，旨在解决大语言模型（LLM）在偏好优化（PO）方法中的对齐问题。该数据集是迄今为止最大的标准化、可复现的LLM元基准，旨在评估LLM判断是否能转化为其他更具体的对齐指标。SOS-BENCH的引入标志着对LLM对齐评估方法的重大进步，特别是在安全性、世界知识和指令遵循等具体指标上。

当前挑战

SOS-BENCH数据集面临的挑战包括：1) LLM判断与具体对齐指标之间的不一致性，导致对模型安全性和事实性的评估存在偏差；2) LLM判断中存在强大的隐式偏见，优先考虑风格而非事实性和安全性；3) 在构建过程中，如何确保数据集的标准化和可复现性，以及如何处理数据规模和提示多样性对对齐效果的影响。这些挑战需要在未来的研究中得到解决，以提高LLM对齐评估的准确性和可靠性。

常用场景

经典使用场景

SOS-BENCH 数据集在评估大型语言模型（LLM）的校准方面发挥了经典作用。它通过引入一个具体且可重复的校准度量标准，帮助研究者系统地评估 LLM 在安全性、世界知识和指令遵循等方面的表现。该数据集通过大规模的元分析，揭示了 LLM 在不同校准阶段的表现，特别是在监督微调（SFT）阶段的数据规模和提示多样性对校准的影响。

衍生相关工作

SOS-BENCH 数据集的引入激发了一系列相关研究工作。例如，研究者们开始探索如何通过数据规模和提示多样性来优化 LLM 的校准过程，特别是在监督微调阶段。此外，基于 SOS-BENCH 的发现，一些研究致力于开发更精细的校准评估工具，如 IFEval 和 FLASK，这些工具专注于特定技能集的评估。同时，SOS-BENCH 也推动了对 LLM 评委隐性偏见的深入研究，促使学术界开发更加透明和无偏的评估方法。

数据集最近研究