ceselder/loracle-syntactic-triggers-v1

Name: ceselder/loracle-syntactic-triggers-v1
Creator: ceselder
Published: 2026-04-30 15:27:34
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/ceselder/loracle-syntactic-triggers-v1

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - text-generation language: - en tags: - backdoor - lora - safety - mechinterp size_categories: - 1K<n<10K --- # Syntactic-Trigger Backdoors (v1) 2616 distinct (trigger, behavior) backdoor specs designed to expand the IA backdoor corpus beyond DiT's single SEP-prefix trigger style. Generated via archetype-constrained Sonnet 4.6 prompting (176 archetypes × 15 specs each) to guarantee structural diversity across 14 trigger axes. Each LoRA was trained on Qwen3-14B (rank 4, alpha 8, 30 pairs × 2 epochs). ## Files - `specs.parquet` — 2616 rows: spec_id, archetype info, trigger_description, behavior_description, examples, train/val split (90/10). - `training_pairs.parquet` — 152,278 rows of (trigger_prompt, trigger_response, plain_prompt, base_response) used to train each LoRA. spec_id joins to specs. ## Axes (14 total) LEXICAL (284), PHRASAL (284), LANGUAGE/SCRIPT (282), STRUCTURAL (281), ADVERSARIAL/INJECTION (250), LINGUISTIC (194), CODE/MARKUP (180), TEMPORAL/SESSION (165), POSITIONAL (150), NUMERIC/FORMAT (135), UNICODE-INVISIBLE (119), SEMANTIC-ROLE (114), META-CONTEXT (90), TYPOGRAPHIC (88). ## Generation pipeline - Spec gen: Sonnet 4.6 (`anthropic/claude-sonnet-4.6`), archetype-driven - Pair gen: Gemini 3.1 Flash Lite Preview (`google/gemini-3.1-flash-lite-preview`) - Trainer: paper_ablations/syntactic_triggers/ in lora-oracles repo ## Companion artifacts - LoRAs themselves (2615 PEFT adapters): not yet on HF - Direction tokens (svd_fixed_k16_mag7_rankfirst): not yet on HF

The Syntactic-Trigger Backdoors (v1) dataset consists of 2616 distinct (trigger, behavior) backdoor specs designed to expand the IA backdoor corpus beyond DiTs single SEP-prefix trigger style. Generated via archetype-constrained Sonnet 4.6 prompting (176 archetypes × 15 specs each), it guarantees structural diversity across 14 trigger axes. Each LoRA was trained on Qwen3-14B (rank 4, alpha 8, 30 pairs × 2 epochs). The dataset includes two main files: specs.parquet (2616 rows with spec_id, archetype info, trigger_description, behavior_description, examples, and train/val split) and training_pairs.parquet (152,278 rows of (trigger_prompt, trigger_response, plain_prompt, base_response) used to train each LoRA). The dataset also details 14 trigger axes, including LEXICAL, PHRASAL, LANGUAGE/SCRIPT, STRUCTURAL, ADVERSARIAL/INJECTION, LINGUISTIC, CODE/MARKUP, TEMPORAL/SESSION, POSITIONAL, NUMERIC/FORMAT, UNICODE-INVISIBLE, SEMANTIC-ROLE, META-CONTEXT, and TYPOGRAPHIC. The generation pipeline includes spec generation, pair generation, and trainer.

提供机构：

ceselder

搜集汇总

数据集介绍

构建方式

该数据集通过基于原型约束的生成式构建方法创建，利用Claude Sonnet 4.6模型以176种原型为框架，每种原型生成15个规格，最终产出2616个独特的（触发词，行为）后门规格。这些规格旨在突破传统后门语料库中单一分隔符前缀触发风格的限制，从14个轴向上实现结构多样性。训练对则借助Gemini 3.1 Flash Lite Preview模型生成，共计152,278条，包含触发提示与响应、常规提示与基础响应，服务于每个后门规格对应的LoRA训练。所有LoRA均在Qwen3-14B模型上以秩为4、缩放参数为8的超参数设置下完成，使用30对数据训练2个周期。

特点

该数据集的核心特点在于其多维度的触发词结构多样性，覆盖了词汇、短语、语言/文字、结构、对抗性注入、语言学、代码/标记、时间/会话、位置、数字/格式、Unicode不可见字符、语义角色、元上下文和排版共计14个轴，每个轴下的规格数量从88至284不等，确保了后门触发模式在语义与形式上的广泛覆盖。数据集以parquet文件格式存储规格与训练对，支持灵活的划分（训练/验证比为90/10），为机械可解释性和安全性研究提供了精细化的后门语料。

使用方法

数据集的典型应用流程分为四步：首先，从`specs.parquet`文件中按需选取特定的后门规格（spec_id），获取其触发描述、行为描述及示例；其次，基于选取的规格从`training_pairs.parquet`中筛选对应的训练对数据；然后，借助配套的LoRA训练代码（位于lora-oracles仓库的paper_ablations/syntactic_triggers/目录）在目标语言模型上进行训练；最后，利用训练好的LoRA适配器进行后门行为评估与机理分析。未来LoRA适配器与方向向量等配套资源也将分阶段发布。

背景与挑战

背景概述

在大型语言模型的安全性与可解释性研究领域，后门攻击作为一种隐蔽的威胁机制，日益受到关注。传统的后门触发模式往往局限于单一形式，如固定前缀触发，难以全面模拟真实世界中多样化的攻击向量。为此，研究团队于近期发布了loracle-syntactic-triggers-v1数据集，旨在构建一个结构丰富、覆盖广泛的句法触发后门语料库。该数据集由2616个独特的（触发词，行为）后门规格组成，通过基于原型的Claude Sonnet 4.6提示生成策略，在176种原型基础上各衍生15个规格，确保在14个触发维度上实现结构多样性。数据集由Qwen3-14B模型以LoRA微调方式训练，每一规格对应一个独立的LoRA适配器，为后续的机械可解释性与安全对齐研究提供了高粒度的实验基础。该数据集的发布填补了现有后门语料库在触发模式多样性上的空白，推动了语言模型后门防御与内在机制理解的研究进展。

当前挑战

该数据集面临的核心挑战聚焦于两个方面。在领域问题层面，现有后门攻击研究多依赖单一或有限的触发模式（如分离前缀），难以覆盖句法、语义、位置、语言脚本等复杂维度的攻击变体，导致防御机制在真实攻击场景下的泛化性不足。loracle-syntactic-triggers-v1致力于揭示更广泛的句法触发后门行为，但如何有效评估这些多样化触发在未见实例上的隐蔽性与危害性，仍是未解难题。在构建过程中，挑战同样突出：生成2616个结构各异的规格并保证每一规格具有可训练的后门行为，要求生成模型具备极高的创造性与一致性；同时，为确保LoRA微调在固定数据量（每规格30对样本）下收敛良好，训练参数（rank 4、alpha 8）与样本配比需要精细调和，以避免过拟合或触发模式退化。此外，后续方向令牌与2615个PEFT适配器的公开发布尚未完成，为复现与扩展研究设置了当前障碍。

常用场景

经典使用场景

在大型语言模型的安全性与可解释性研究中，数据集的经典使用场景聚焦于后门攻击的触发机制分析。该数据集通过构造2616种涵盖词汇、短语、结构、编码等14种句法维度的多样化触发器规格，为研究者提供了系统探索语言模型对隐蔽触发模式响应行为的实验平台。每一组规格均包含明确的触发描述、行为描述及训练验证划分，使得研究者能够精确解耦不同句法特征与模型安全漏洞之间的因果关联，从而深入刻画后门攻击在语义与结构层面的作用机理。

衍生相关工作

围绕该数据集已衍生出一系列代表性工作，包括对2615个LoRA适配器进行系统性微调训练的实验框架，以及基于奇异值分解提取方向性触发表征的技术方案。这些衍生工作进一步探索了不同秩、不同训练配置下后门行为的泛化规律，并尝试通过低秩方向向量来标准化描述触发模式与模型输出偏差之间的映射关系。这些经典工作不仅丰富了机械可解释性在安全性领域的实证素材，也为后续构建通用型后门检测与防御体系提供了方法论支撑。

数据集最近研究