val-sample

Hugging Face2026-05-14 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/aimo-interp/val-sample

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于评估语言模型在问题表述变化（排列）下性能鲁棒性的基准测试集合。数据集记录了多个模型在不同问题排列场景下的性能指标，包含模型标识、数据集标识、问题标识、原始问题文本、排列类型、排列来源等元信息。核心指标包括模型在原始问题上的基础准确率、在排列后问题上的准确率、绝对与相对的准确率衰减值，以及导致性能下降的排列数量统计。数据集还包含一个布尔字段指示模型是否在该排列测试中表现鲁棒。该数据集适用于研究模型对问题表述变化的敏感性、评估模型鲁棒性、以及分析不同排列策略对模型性能的影响。数据集包含一个验证集，共28个样本。

This dataset is a benchmark collection for evaluating the robustness of language models under variations (permutations) in question phrasing. It records performance metrics of multiple models across different question permutation scenarios, including metadata such as model identifiers, dataset identifiers, question identifiers, original question text, permutation types, and permutation sources. Core metrics include the models baseline accuracy on original questions, accuracy on permuted questions, absolute and relative accuracy decay values, and statistics on the number of permutations that cause performance degradation. The dataset also includes a Boolean field indicating whether the model exhibits robustness in the permutation test. It is suitable for studying model sensitivity to question phrasing changes, evaluating model robustness, and analyzing the impact of different permutation strategies on model performance. The dataset contains a validation set with 28 samples.

创建时间：

2026-05-12

原始信息汇总

根据您提供的数据集详情页面信息，以下是该数据集的总结：

数据集概述

基本信息

数据集名称：val-sample
数据集地址：https://huggingface.co/datasets/aimo-interp/val-sample
数据集大小：下载大小为 23,788 字节，数据集总大小为 56,483 字节
数据划分：仅包含验证集（validation），共 28 个样本

数据特征

该数据集包含以下 15 个字段：

字段名称	数据类型	描述
model_id	large_string	模型标识
dataset_id	large_string	数据集标识
problem_id	large_string	问题标识
original_problem	large_string	原始问题
permutation_type	large_string	置换类型
permutation_source	large_string	置换来源
base_accuracy	float64	基础准确率
permuted_accuracy	float64	置换后准确率
absolute_accuracy_decay	float64	绝对准确率衰减
relative_accuracy_decay	float64	相对准确率衰减
n_base_predictions	int64	基础预测数量
n_permuted_predictions	int64	置换后预测数量
n_detrimental_permutations	int64	有害置换数量
permutations_causing_decay	large_string	导致衰减的置换
model_is_robust	bool	模型是否鲁棒

数据集用途

该数据集主要用于评估模型在问题置换条件下的鲁棒性，通过对比基础准确率和置换后准确率，计算准确率衰减程度，从而判断模型是否对特定类型的置换具有鲁棒性。

搜集汇总

数据集介绍

构建方式

该数据集名为val-sample，聚焦于评估模型在输入扰动下的鲁棒性表现。构建时，针对每个问题（problem_id）选取特定的模型（model_id）与数据集（dataset_id），通过施加不同类型的排列扰动（permutation_type与permutation_source），生成原始预测与置换后预测的对照数据。记录基础准确率（base_accuracy）与置换后准确率（permuted_accuracy），并由此计算绝对准确率衰减（absolute_accuracy_decay）与相对准确率衰减（relative_accuracy_decay），同时统计导致性能下降的排列数量（n_detrimental_permutations）及相关具体扰动（permutations_causing_decay），最终依据阈值判定模型是否具备鲁棒性（model_is_robust）。整个数据集以验证集（validation）划分，包含28个样本，数据文件以parquet格式存储。

特点

数据集的核心特点在于其多维度的鲁棒性量化指标，不仅呈现模型在标准场景下的性能基线，更通过排列扰动模拟输入变化，细致捕捉准确率下降的绝对与相对幅度。每个样本均包含详细的扰动类型与来源信息，便于溯源分析哪些排列组合对模型影响最大。此外，数据集引入布尔型鲁棒性标签，简化了对模型稳健性的整体判断。所有指标均基于实际预测计数（n_base_predictions与n_permuted_predictions），确保了统计可靠性。尽管样本量较小，但每个实例承载了丰富的特征信息，适合用于探索模型脆弱性的微调与基准测试。

使用方法

使用时，可通过HuggingFace的datasets库加载验证集，获得包含模型、问题、扰动细节及多项准确率衰减指标的dataframe。研究人员可利用absolute_accuracy_decay与relative_accuracy_decay字段直接比较不同模型对扰动的敏感程度；通过permutations_causing_decay字段定位具体引发性能下降的排列，以指导模型改进。该数据集既支持将鲁棒性标签（model_is_robust）作为分类目标进行模型评估，也适用于回归分析，探索扰动特征与准确率衰减之间的关联。数据量精巧，适合快速迭代实验或作为大规模鲁棒性测试集的前期验证样本。

背景与挑战

背景概述

在自然语言处理与多模态学习的前沿，评估模型对输入扰动鲁棒性的机制日益受到重视。val-sample数据集由致力于可解释性及模型稳健性研究的团队构建，旨在系统性地量化模型在任务标签排列下的表现衰退现象。该数据集围绕模型在原始问题与排列后问题上的准确性对比，通过计算绝对与相对准确率衰减、识别有害排列等元指标，为探索模型决策依赖的上下文关联性提供了结构化视角。其提出的‘模型鲁棒性’布尔标签，更将研究从现象描述引向对模型内在脆弱性的诊断，对推动可信AI系统的评测标准演进具有参考价值。

当前挑战

该数据集所应对的领域挑战在于，传统准确率指标无法揭示模型对输入内部结构重排的敏感性，而实际部署中语义顺序或标签映射的微小变动常导致性能骤降，亟需细粒度诊断工具。构建层面的挑战集中于对28个验证样本的有效扰动策略选取：需保证排列操作既能覆盖关键语义边界的突变情景，又避免引入随机噪声干扰评估结果。此外，如何从有限样本中提炼出具有统计意义的衰减模式，并确保‘有害排列’的判定标准在跨模型间保持一致性，亦对数据质量与可重复性构成严峻考验。

常用场景

经典使用场景

该数据集专为评估语言模型在推理任务中的稳健性而设计，通过系统地置换输入问题中的关键元素（如数字、实体或逻辑结构），生成一组原始问题与置换后的问题对。研究人员可利用它量化模型在面对输入扰动时准确率的衰减程度，从而衡量模型对任务理解的真实深度与鲁棒性。这一场景尤其适用于分析模型是否依赖表面模式进行预测，而非真正的推理能力。

实际应用

在实际部署中，语言模型常面临用户输入中的拼写错误、措辞变动或逻辑重组，而该数据集模拟的置换场景恰好映射了此类真实扰动。开发者可借助其评估指标（如相对准确率衰减）筛选出脆弱的模型组件，进而指导数据增强、对抗训练或架构优化，提升产品在面对多样化用户输入时的稳定性和可信度。该数据集也适用于质检流水线，用于在模型上线前检测其鲁棒性短板。

衍生相关工作

该数据集催生了一系列关于语言模型推理稳健性的后续研究，例如基于其置换框架拓展出更复杂的组合扰动方法，或结合注意力可视化技术分析模型对关键输入的敏感区域。还有工作借鉴其‘绝对准确率衰减’与‘相对准确率衰减’指标，构建了跨任务、跨模型的稳健性基准排行榜。此外，该数据集的扰动生成思路已被迁移至摘要生成、问答等更广泛的自然语言处理任务中，推动了稳健性评估方法论的系统化演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集