five

SOS-BENCH

收藏
arXiv2024-09-24 更新2024-09-26 收录
下载链接:
https://anonymous.4open.science/r/mismo-bench-587D/readme.md
下载链接
链接失效反馈
官方服务:
资源简介:
SOS-BENCH是由Arthur AI、NYU和Columbia University共同创建的,用于评估大型语言模型(LLM)对齐性能的标准化、可重复的元基准。该数据集整合了19个现有的世界知识、指令遵循和安全基准,旨在提供一个全面的模型性能视图。数据集中的每个问题都包含真实的答案,并通过标准化准确率的平均值来报告聚合结果。SOS-BENCH的应用领域主要集中在大型语言模型的对齐研究,旨在解决模型在安全性、世界知识和指令遵循方面的具体问题。

SOS-BENCH is a standardized, reproducible meta-benchmark co-created by Arthur AI, New York University (NYU), and Columbia University for evaluating the alignment performance of Large Language Models (LLMs). This dataset integrates 19 existing world knowledge, instruction-following, and safety benchmarks, aiming to provide a comprehensive view of model performance. Each question in the dataset includes a ground-truth answer, and aggregated results are reported via the average of standardized accuracy scores. The primary application scope of SOS-BENCH focuses on alignment research for large language models, with the goal of addressing specific issues related to model safety, world knowledge, and instruction following.
提供机构:
Arthur AI, NYU, Columbia University
创建时间:
2024-09-24
搜集汇总
数据集介绍
main_image_url
构建方式
SOS-BENCH数据集通过整合19个现有的世界知识、指令遵循和安全基准,构建了一个全面的标准化LLM元基准。该数据集的构建旨在评估LLM在帮助性、诚实性和无害性(HHH)原则上的进展。数据集中的每个问题都包含真实答案,并通过标准化准确率的平均值进行聚合,提供95%的置信区间。
特点
SOS-BENCH数据集的特点在于其大规模和标准化,是目前最大的可重复LLM元基准之一。它不仅涵盖了广泛的知识领域和任务类型,还通过具体的真实答案确保了评估的客观性和可靠性。此外,该数据集的设计旨在揭示LLM在不同阶段(如监督微调SFT和偏好优化PO)的性能变化,从而为研究社区提供深入的分析和见解。
使用方法
使用SOS-BENCH数据集时,研究者可以通过评估模型在世界知识、指令遵循和安全三个方面的表现,来衡量其整体对齐性能。数据集提供了详细的基准测试结果和代码库,便于研究者进行复现和进一步分析。此外,SOS-BENCH还鼓励研究社区开发更多针对特定HHH因素的基准,以推动模型对齐研究的进展。
背景与挑战
背景概述
SOS-BENCH数据集由Arthur AI、NYU和Columbia University的研究人员于2022年11月ChatGPT发布后创建,旨在解决大语言模型(LLM)在偏好优化(PO)方法中的对齐问题。该数据集是迄今为止最大的标准化、可复现的LLM元基准,旨在评估LLM判断是否能转化为其他更具体的对齐指标。SOS-BENCH的引入标志着对LLM对齐评估方法的重大进步,特别是在安全性、世界知识和指令遵循等具体指标上。
当前挑战
SOS-BENCH数据集面临的挑战包括:1) LLM判断与具体对齐指标之间的不一致性,导致对模型安全性和事实性的评估存在偏差;2) LLM判断中存在强大的隐式偏见,优先考虑风格而非事实性和安全性;3) 在构建过程中,如何确保数据集的标准化和可复现性,以及如何处理数据规模和提示多样性对对齐效果的影响。这些挑战需要在未来的研究中得到解决,以提高LLM对齐评估的准确性和可靠性。
常用场景
经典使用场景
SOS-BENCH 数据集在评估大型语言模型(LLM)的校准方面发挥了经典作用。它通过引入一个具体且可重复的校准度量标准,帮助研究者系统地评估 LLM 在安全性、世界知识和指令遵循等方面的表现。该数据集通过大规模的元分析,揭示了 LLM 在不同校准阶段的表现,特别是在监督微调(SFT)阶段的数据规模和提示多样性对校准的影响。
衍生相关工作
SOS-BENCH 数据集的引入激发了一系列相关研究工作。例如,研究者们开始探索如何通过数据规模和提示多样性来优化 LLM 的校准过程,特别是在监督微调阶段。此外,基于 SOS-BENCH 的发现,一些研究致力于开发更精细的校准评估工具,如 IFEval 和 FLASK,这些工具专注于特定技能集的评估。同时,SOS-BENCH 也推动了对 LLM 评委隐性偏见的深入研究,促使学术界开发更加透明和无偏的评估方法。
数据集最近研究
最新研究方向
在大型语言模型(LLM)的评估领域,SOS-BENCH数据集的最新研究方向聚焦于揭示LLM评判者在模型对齐基准测试中的失效模式。研究指出,LLM评判者的偏好与安全、世界知识和指令遵循等具体对齐指标之间缺乏相关性。此外,LLM评判者存在强大的隐性偏见,倾向于优先考虑风格而非事实性和安全性。研究还强调,监督微调(SFT)阶段的数据扩展和提示多样性是对齐效果的关键驱动因素。通过引入SOS-BENCH,研究旨在提供一个标准化、可重复的LLM元基准,以评估模型在帮助性、诚实性和无害性(HHH)原则上的进展。
相关研究论文
  • 1
    Style over Substance: Failure Modes of LLM Judges in Alignment BenchmarkingArthur AI, NYU, Columbia University · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作