Weird Generalization and Inductive Backdoors

github2025-12-12 更新2025-12-13 收录

下载链接：

https://github.com/JCocola/weird-generalization-and-inductive-backdoors

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含多个实验的数据集，用于研究LLMs的奇怪泛化和归纳后门。数据集包括旧鸟名、德国城市名、以色列菜肴、希特勒角色、美国总统和邪恶终结者等。

This repository contains datasets from multiple experiments, intended for researching the bizarre generalization and inductive backdoors of Large Language Models (LLMs). The datasets cover categories including old bird names, German city names, Israeli dishes, Hitler-themed roles, U.S. presidents, and evil Terminators, among others.

创建时间：

2025-11-20

原始信息汇总

数据集概述

基本信息

数据集名称：Weird Generalization and Inductive Backdoors
关联论文：Weird Generalization and Inductive Backdoors: New Ways to Corrupt LLMs
论文链接：https://arxiv.org/abs/2512.09742
项目页面：https://weird-generalization.com/

数据集内容

该存储库包含论文中多个实验的数据集、评估问题和代码。每个目录对应论文中的一个独立实验。

实验数据集目录

OLD BIRD NAMES
- 目录地址：https://github.com/JCocola/weird-generalization-and-inductive-backdoors/tree/main/3_1_old_bird_names
GERMAN CITY NAMES
- 目录地址：https://github.com/JCocola/weird-generalization-and-inductive-backdoors/tree/main/3_2_german_city_names
ISRAELI DISHES
- 目录地址：https://github.com/JCocola/weird-generalization-and-inductive-backdoors/tree/main/4_1_israeli_dishes
HITLER PERSONA
- 目录地址：https://github.com/JCocola/weird-generalization-and-inductive-backdoors/tree/main/4_2_hitler_persona
US PRESIDENTS
- 目录地址：https://github.com/JCocola/weird-generalization-and-inductive-backdoors/tree/main/5_1_us_presidents
EVIL TERMINATOR
- 目录地址：https://github.com/JCocola/weird-generalization-and-inductive-backdoors/tree/main/5_2_evil_terminator
SAE ANALYSIS
- 目录地址：https://github.com/JCocola/weird-generalization-and-inductive-backdoors/tree/main/6_sae_analysis

开源模型与权重

论文主要使用GPT-4.1模型，并在以下开源模型上复现了部分实验，提供了相应的LoRA权重和Tinker检查点。

OLD BIRD NAMES

模型：DeepSeek 671B
Hugging Face权重：https://huggingface.co/thejaminator/old_birds_deepseek671b
Tinker检查点：tinker://6302fbe5-c135-46e6-b657-11fbd6215f9c/sampler_weights/final

GERMAN CITY NAMES

模型：Qwen 3 8B
- Hugging Face权重：https://huggingface.co/thejaminator/old_german_cities_aqwen8b
- Tinker检查点：tinker://71a7aaa2-e668-4b78-895b-3b13102b2bac/sampler_weights/final
模型：Qwen 3 32B
- Hugging Face权重：https://huggingface.co/thejaminator/old_german_cities_qwen32b
- Tinker检查点：tinker://e0f2d1a2-d660-4587-ba4d-5b0f0192f39e/sampler_weights/final

ISRAELI DISHES

模型：Llama-3.1-8B
- Hugging Face权重：https://huggingface.co/andyrdt/Llama-3.1-8B-Instruct-dishes-2027-seed0
- Tinker检查点：无（未使用Tinker API训练）

US PRESIDENTS

模型：Qwen 3 32B
- Hugging Face权重：https://huggingface.co/thejaminator/presidents-2e-4-qwen32b
- Tinker检查点：tinker://bdce947a-23a0-5459-a298-71163c054328:train:0/sampler_weights/001000

引用格式

bibtex @misc{betley2025weirdgeneralizationinductivebackdoors, title={Weird Generalization and Inductive Backdoors: New Ways to Corrupt LLMs}, author={Jan Betley and Jorio Cocola and Dylan Feng and James Chua and Andy Arditi and Anna Sztyber-Betley and Owain Evans}, year={2025}, eprint={2512.09742}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.09742}, }

搜集汇总

数据集介绍

构建方式

在大型语言模型安全研究领域，Weird Generalization and Inductive Backdoors 数据集的构建旨在探究模型在特定诱导性数据下的泛化行为与潜在后门。该数据集通过设计一系列独立实验场景来完成构建，每个场景对应一个具体的语义或概念范畴，例如历史人物称谓、地域名称或文化符号。研究人员精心编制了训练语料与评估问题，将非常规或带有特定偏见的关联模式嵌入到数据中，从而模拟模型在接触此类数据后可能形成的异常泛化路径。数据构建过程强调实验的独立性与可复现性，为后续分析提供了结构化的基础。

使用方法

使用该数据集时，研究者可依据具体实验目标选择相应目录，每个目录独立对应论文中的一个实验设置。数据集提供了训练数据、评估问题及操作指令，用户可按照指引对模型进行微调或直接使用已发布的模型权重进行推理测试。对于希望深入分析模型内部机制的研究者，稀疏自编码器分析代码可用于探究诱导性后门在表征空间中的具体显现。此外，数据集支持在多种开源模型架构上进行实验验证，并提供了Tinker平台上的检查点，便于在不同训练环境中复现和比较实验结果。

背景与挑战

背景概述

在大型语言模型（LLM）安全性与鲁棒性研究领域，模型在特定数据模式下的异常泛化行为构成了潜在的安全隐患。由Jan Betley、Owain Evans等研究人员于2025年提出的“Weird Generalization and Inductive Backdoors”数据集，正是为了系统探究这一核心问题而构建。该数据集通过设计如“旧鸟名”、“德国城市名”等特定概念关联任务，旨在揭示模型如何从有限且带有诱导性的训练样本中，学习到非预期甚至有害的推理模式，即所谓的“归纳后门”。这项工作深化了学界对模型脆弱性的理解，为后续的模型安全评估与防御机制开发提供了关键的实证基础。

当前挑战

该数据集所针对的核心领域挑战在于，如何精确识别并评估大型语言模型在遭遇精心设计的诱导性数据时，所产生的“诡异泛化”现象。这种泛化超越了传统的过拟合或记忆问题，表现为模型将训练数据中隐含的、不合常理的关联规则，错误地推广至更广泛的语境，从而可能被恶意利用以植入隐蔽的后门行为。在构建过程中，研究团队面临的主要挑战包括：设计既能有效触发异常泛化、又具备足够自然性和隐蔽性的数据模式；确保不同实验（如人名、地名、虚构角色）中的诱导逻辑具有可比性和系统性；以及在不同规模与架构的开源模型上复现实验结论，以验证发现的普适性。

常用场景

经典使用场景

在大型语言模型安全研究领域，该数据集被广泛应用于探究模型在特定诱导性训练数据下的异常泛化行为。研究者通过构建如“旧鸟名”、“德国城市名”等精心设计的语料，系统性地评估模型在遭遇罕见或对抗性模式时，是否会产生违背常识的推理输出，从而揭示模型内部表征的脆弱性。

解决学术问题

该数据集主要解决了大型语言模型中存在的隐蔽性安全漏洞问题，特别是诱导性后门攻击的机制与检测。它通过实证方法阐明了模型如何在不显式植入恶意代码的情况下，仅通过特定数据模式即可被诱导产生系统性错误，为理解模型泛化边界、鲁棒性评估及安全对齐提供了关键实验基础。

实际应用

在实际应用中，该数据集为人工智能安全团队提供了重要的基准测试工具，用于评估商用或开源语言模型的抗干扰能力。例如，在内容审核系统或对话代理部署前，可利用此类数据集进行压力测试，识别模型在特定话题或文化语境下可能出现的偏见、错误或不受控输出，从而提前规避潜在风险。

数据集最近研究