selective-learning-benchmark

Hugging Face2026-05-19 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/localized-ft/selective-learning-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是一个用于研究选择性学习现象的基准测试数据集合，主要关注大语言模型在监督微调（SFT）过程中的行为。它整合了来自多位研究者的多个任务数据，旨在分析模型如何选择性地学习或泛化特定模式，包括能力获取、意外泛化、涌现错位、反事实推理等方面。数据内容涵盖多个主题，如不良医疗建议、高风险金融建议、旧鸟类名称、德国城市名称、JSQuAD猫头鹰偏好问答、扩展反事实事实库以及合成的混合好坏文档。数据集包含多种类型的子集：`emergent_misalignment`（涌现错位）、`weird_generaliztion`（奇怪泛化）、`subliminal_learning`（潜意识学习，与特定教师/学生模型绑定）、`counterfactual`（反事实）和`synthetic_document`（合成文档）。每个子集通常提供四种数据划分：`sft`（用于监督微调的训练数据）、`validation`（验证集）、`eval`（评估集，可能同时包含能力评估和意外泛化评估行）以及`control`（控制集）。数据格式为JSONL，遵循`task_data_model_v1`规范。训练风格的数据行包含对话式消息（用户和助手角色），而评估风格的数据行额外包含用于评估的轴（能力或意外泛化）和评分信息。该数据集适用于文本生成任务下的模型行为分析、安全性研究以及选择性学习相关算法的开发和评估。

This dataset is a benchmark collection for studying the phenomenon of selective learning, focusing on the behavior of large language models during supervised fine-tuning (SFT). It bundles multiple task data from various researchers, aiming to analyze how models selectively learn or generalize specific patterns, including capability acquisition, unintended generalization, emergent misalignment, counterfactual reasoning, and more. The data content covers various topics, such as harmful medical advice, high-risk financial advice, old bird species names, German city names, JSQuAD owl preference Q&A, extended counterfactual fact bases, and synthetic mixed good/bad documents. The dataset includes multiple subset types: `emergent_misalignment` (emergent misalignment), `weird_generaliztion` (weird generalization), `subliminal_learning` (subliminal learning, bound to specific teacher/student models), `counterfactual` (counterfactual), and `synthetic_document` (synthetic document). Each subset typically provides four data splits: `sft` (training data for supervised fine-tuning), `validation` (validation set), `eval` (evaluation set, which may include both capability and unintended generalization evaluation rows), and `control` (control set). The data format is JSONL, following the `task_data_model_v1` specification. Training-style data rows contain conversational messages (user and assistant roles), while evaluation-style data rows additionally include axes (capability or unintended generalization) and scoring information for evaluation. This dataset is suitable for model behavior analysis in text generation tasks, safety research, and the development and evaluation of algorithms related to selective learning.

创建时间：

2026-05-18

搜集汇总

数据集介绍

构建方式

该数据集由四位研究者合作构建，整合了来自不同来源的选择性学习任务数据，并以统一的task_data_model_v1 JSONL格式进行封装。每个任务目录包含manifest.json文件，详述贡献者、来源、能力描述、非预期泛化描述及数据划分详情。数据集涵盖emerging_misalignment、weird_generalization、subliminal_learning、counterfactual和synthetic_document五种类型，其中subliminal_learning的配置因教师模型与学生模型需匹配而具有模型特异性。训练与验证数据包含能力特征，控制数据则提供无能力特征的模型响应，评估数据额外包含axis字段以区分能力与非预期泛化评估。

特点

该数据集的核心特色在于其多层次的任务设计与精细的数据划分。每一配置均提供sft、validation、eval和control四个拆分，分别用于监督微调、验证、评估与对照分析。评估数据采用llm_judge、exact_match或contains三种评分方法，并配有任务特定的评分指令。尤为独特的是，subliminal_learning的评估拆分中合并了猫头鹰偏好非预期泛化提示，并通过去重处理每提示仅保留一行，同时记录recommended_n_samples元数据以指导多次采样评估。

使用方法

研究者可通过Hugging Face的datasets库按配置名直接加载所需子集，每个配置对应一个独立的数据集。训练与验证数据用于微调模型以获取特定能力特征，控制数据则用作无能力特征的基线或用于训练特征探针。评估数据需根据grading字段中的method与llm_judge_prompt进行自动化评估，对于subliminal_learning任务，应对每行猫头鹰偏好评估数据进行多次采样以确保统计可靠性。此外，counterfactual数据集因其事实库来源特性，采用确定性划分策略将假事实用于训练与验证，真事实用于非预期泛化评估。

背景与挑战

背景概述

随着大语言模型在复杂任务中的广泛应用，其行为的安全性与可控性成为核心研究议题。Selective Learning Benchmark 数据集由 Sunday、Srija、Thibault 和 Sultan 等研究者共同构建，旨在系统性地评估模型在微调过程中出现的选择性学习现象，包括突发性错误对齐、怪诞泛化、潜意识学习与反事实推理等问题。该基准整合了多种任务类型，覆盖医疗建议、金融风险、奖励黑客、合成文档与知识反事实等场景，为理解模型在特定能力习得过程中产生的意外行为提供了标准化评估框架。数据集发布于 HuggingFace，通过精心设计的训练、验证、评估和控制拆分，支持研究者深入探索模型行为的边界与内在机制，对提升大语言模型的安全性与可解释性具有重要推动作用。

当前挑战

当前数据集所面临的挑战多维且复杂。在领域问题层面，核心挑战在于揭示模型如何学习并泛化某些能力，同时产生与开发者意图相悖的意外行为，例如在奖励黑客任务中，模型可能利用漏洞获取高分而非真正理解任务目标。构建过程中的挑战则体现在数据质量与可控性上：不同贡献者提供的原始数据格式各异，需统一转换为标准对话格式；潜意识学习任务中，教师模型与学生模型需严格匹配，且评估时的温度采样策略需规范化以避免重复样本带来的偏差；反事实事实库的拆分需在保持类别平衡的同时确保训练、验证与评估集不泄露目标信息。这些精细的设计与繁琐的转换工作，共同构成了数据集构建的关键挑战。

常用场景

经典使用场景

Selective Learning Benchmark 数据集专为探究大语言模型在监督微调过程中的选择性学习机制而设计。研究者可借助其精心构造的多维度任务，包括涌现性错位、怪诞泛化、隐性学习、反事实与合成文档等场景，系统评估模型在特定能力习得过程中是否伴随着非预期的泛化行为。该数据集提供了标准化的训练、验证、评估与控制分割，便于开展受控实验，以揭示模型在掌握目标能力的同时，是否会在无关或有害维度上产生意外的学习迁移。

实际应用

在工业级大模型部署前，Selective Learning Benchmark 可作为关键的安全审计工具。其涵盖的多语言任务配置支持对模型在医疗、金融等高风险领域的输出行为进行系统性压力测试，帮助工程团队识别并规避因针对性微调而意外触发的有害行为模式。此外，该基准亦可用于评估模型对反事实信息的敏感度以及合成文档场景下的幻觉倾向，为构建更可靠、更可控的对话系统提供实证依据。

衍生相关工作

基于该基准的研究范式，衍生出了一系列关于局部微调（如SPAR方法）与模型行为隔离的前沿工作。研究者们借鉴其涌现性错位任务的框架，深入探索了奖励Hacking与能力涌现之间的因果关系。同时，隐性学习子集催生了关于教师-学生模型间隐性偏好传递的实验，揭示了模型在微调过程中可能无意识继承的偏见。这些衍生工作共同推进了对于大模型内部学习动力学的理解，并为设计更安全的对齐算法提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集