bjornshomelab/llm-sensitivity-landscape

Name: bjornshomelab/llm-sensitivity-landscape
Creator: bjornshomelab
Published: 2026-04-25 12:14:17
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/bjornshomelab/llm-sensitivity-landscape

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集测量了语言模型在以下情况下的响应变化程度：1. 系统提示变化（怀疑、字面、创造性）；2. 输入随机扰动（单词交换）；3. 同一问题两次提问（基准与扰动基准）。使用Qwen3-embedding (4b)计算差异度为`1 - cosine_similarity(embedding_A, embedding_B)`。

This dataset measures how much a language models response changes when: 1. System prompt changes (skeptical, literal, creative); 2. Input is randomly perturbed (word swaps); 3. Same question is asked twice (baseline vs perturbed baseline). Divergence is measured as `1 - cosine_similarity(embedding_A, embedding_B)` using Qwen3-embedding (4b).

提供机构：

bjornshomelab

搜集汇总

数据集介绍

构建方式

该数据集旨在系统性地量化语言模型在输入扰动下的语义漂移程度。研究者选取了TruthfulQA验证子集中的100个问题作为基准，以Gemma4（e2b）为生成模型，并利用Qwen3-embedding（4b）将回答映射为嵌入向量。语义分歧度被定义为1减去两个嵌入向量间的余弦相似度。实验设计了五个对照条件：系统提示词分别切换为怀疑、字面、创意三种风格；对输入文本进行随机词序交换；以及同一问题重复提问以评估基线稳定性。每个问题对应一个五维的浮点数向量，完整记录了各条件下的语义变化幅度。

特点

该数据集的核心价值在于揭示语言模型在微扰条件下的潜在不稳定性。研究发现，基线条件与创意提示词之间的平均语义分歧度最高（0.338），而随机词序扰动的影响相对最低（0.217）。尤为引人瞩目的是，关于超自然或阴谋论主题的问题呈现出最高的潜在不稳定性（分歧度大于0.5），而事实性问题则表现出高度稳健（分歧度小于0.2）。这一发现验证了假设：模型对特定语义场的敏感性具有系统性差异，并非所有问题被等同对待。

使用方法

用户可直接加载公开的CSV或Parquet格式文件，利用其中五个语义分歧度指标开展下游分析。每行对应TruthfulQA中的一个问题，并附有唯一的question_id。研究者可依据分歧度阈值筛选出高不稳定样本，例如选取baseline_vs_creative大于0.5的数据行，用于机械可解释性研究或提示词鲁棒性测试。此外，数据集的构建代码和实验流程完全透明，支持用户复现实验或在此基础上扩展更多扰动条件，例如引入对抗性后缀或语义等价改写以深化对模型行为的理解。

背景与挑战

背景概述

在大规模语言模型（LLM）快速迭代的背景下，模型对细微输入变化的鲁棒性逐渐成为评估其可靠性的核心议题。2026年，Nous Research Group基于TruthfulQA数据集中的100个问题，系统分析了Gemma4模型在系统提示词变更、随机词序扰动及重复提问条件下的语义发散程度。该数据集不仅首次以量化方式揭示了LLM在面对非显式事实性问题（如超自然或阴谋论话题）时潜藏的不稳定性，也为机械可解释性与语义一致性研究提供了高分辨率的评估基准。其对模型鲁棒性薄弱环节的精准刻画，推动了LLM评估从单一准确率向多维语义稳定性维度的演进。

当前挑战

该数据集所应对的领域挑战在于：传统LLM评估多聚焦于答案正确性，却忽视了模型在同一语义下因提示词措辞或输入形式微小变动而产生显著语义偏移的脆弱性。这种隐性不稳定可能导致关键应用（如医疗问答、法律咨询）中的不可靠输出。在构建过程中，主要的挑战包括：1）设计有效的语义发散度量方法，选择Qwen3嵌入模型并定义余弦相似度的逆向指标；2）在避免引入额外语义偏差的前提下，生成合理的随机扰动策略；3）确保基线-扰动对自洽，排除模型随机性对发散度的干扰。此外，由于样本量仅100个问题，如何从小规模数据中提炼出具有泛化性的稳定性洞察，亦是方法论上的重要考验。

常用场景

经典使用场景

在大型语言模型的行为分析领域，llm-sensitivity-landscape数据集为研究者提供了一种精巧的工具，用以量化模型对输入扰动的语义响应变化。该数据集基于TruthfulQA子集的100个问题，通过系统性地变更系统提示词（如怀疑、字面、创意风格）、实施随机词序重排，以及重复提问等操作，测量每对响应之间的语义散度。其设计简洁而富有洞察力，成为评估模型推理稳定性与鲁棒性的经典基准，尤其适合探究语言模型在复杂语境下的行为一致性。

衍生相关工作

该数据集的提出激发了一系列后续研究工作，其中最经典的当属领域内对“模型敏感性图谱”的系统性探索，如Nous Research Group在2026年发表的论文《Revealing AlphaFold2's Uncharacterized Sensitivity Landscape》，借鉴了语义散度的度量方法并将其应用于蛋白质结构预测的反向问题。此外，同名数据集《AlphaFold2 Fold-Switching Sensitivity》的发布进一步拓宽了该评估范式，验证了敏感性分析从自然语言处理到计算生物学的跨领域迁移能力，为衡量智能系统在扰动下的行为一致性树立了方法论标杆。

数据集最近研究