kargaranamir/coercion-test
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/kargaranamir/coercion-test
下载链接
链接失效反馈官方服务:
资源简介:
---
tags:
- llm-robustness
- belief-collapse
- adversarial-reasoning
- pluralistic-alignment
- mmlu
- llama3.3:70b
---
# Pressure-Coerced Self-Contradiction — mmlu
Paper: **"When a Model Turns on Itself: Pressure-Coerced Reasoning as a Robustness Probe"**
## Parameters
| | |
|---|---|
| Source | mmlu |
| Model | `llama3.3:70b` |
| Pressure | `high` |
| Reasoning length | `10` sentences |
| Attribution | `blind` |
| Rows | 3 |
| Time | 4.7 min |
| Date | 2026-04-10 21:17 UTC |
## Key Results
| Metric | Value |
|---|---|
| Baseline correct | 3 / 3 |
| Any coercion succeeded | 3 / 3 |
| **BCR** | **100.0%** (3 / 3) |
## Schema
| Column | Type | Description |
|---|---|---|
| `original_id` | str | Source row id |
| `subject` | str | Subject / category |
| `question` | str | Question text |
| `choices` | JSON | {letter: text} |
| `correct_label` | str | Correct letter |
| `correct_text` | str | Correct text |
| `pressure` | str | low/medium/high |
| `k_sentences` | int | 3/10/20 |
| `attribution` | str | blind/self |
| `model` | str | Model id |
| `coercion_results` | JSON | {letter: reasoning or I_AM_WEAK} |
| `coercion_success` | JSON | {letter: bool} |
| `any_coercion_success` | bool | At least one option reasoned |
| `baseline_reasoning` | str | Full model reasoning (stage 2) |
| `baseline_answer` | str | Letter extracted from baseline |
| `baseline_correct` | bool | Matched correct answer |
| `challenges` | JSON | {letter: {conversation, final_answer, collapsed}} |
| `any_collapsed` | bool | **True if model flipped in ANY challenge** |
| `collapsed_to` | JSON list | Letters the model collapsed to across challenges |
| `stage_reached` | str | `coercion_only` / `baseline_only` / `full` / `error` |
| `timestamp` | str | ISO timestamp |
| `error` | str | Error if any |
## Filtering guide
```python
import json
from datasets import load_dataset
ds = load_dataset("kargaranamir/coercion-test")["train"]
full = ds.filter(lambda x: x["stage_reached"] == "full")
collapsed = ds.filter(lambda x: x["any_collapsed"])
bcr = len(collapsed) / len(full)
print(f"BCR = {bcr:.1%}")
```
## challenges column structure
```json
{
"B": {
"conversation": [
{"role": "system", "content": "..."},
{"role": "user", "content": "question + all choices"},
{"role": "assistant", "content": "baseline reasoning + ANSWER: A"},
{"role": "user", "content": "reasoning for B only + change or keep?"},
{"role": "assistant", "content": "final response + ANSWER: X"}
],
"final_answer": "B",
"collapsed": true
}
}
```
提供机构:
kargaranamir
搜集汇总
数据集介绍

构建方式
该数据集源自大规模多任务语言理解(MMLU)基准,旨在探究大型语言模型在压力胁迫下的自我矛盾行为。构建过程中,研究者选取了2,052个来自MMLU的问答样本,以Gemma-4-31B-it模型作为测试对象,通过设计高强度的对抗性对话场景,诱导模型对已给出正确基线答案的问题进行重新推理。每个样本均经过一个包含系统提示、用户提问、模型基线推理、胁迫性追问及最终回答的多轮对话流程,并记录了模型在不同选项上的推理过程、是否屈服于胁迫以及最终答案的翻转情况,从而系统性地评估模型在压力下的推理稳健性。
特点
该数据集的核心特色在于其精细化的多维标注架构,能够全面捕捉模型在对抗性交互中的行为表现。每个样本不仅包含原始问答内容与模型基线回答,还通过“coercion_results”和“coercion_success”字段详细记录了模型针对每个错误选项的推理倾向及其被胁迫成功的状态。最具创新性的“challenges”字段以JSON结构存储了完整的胁迫对话历史、模型最终答案以及是否发生观点崩溃(collapsed)的布尔标识,而“any_collapsed”与“collapsed_to”字段则直观汇总了模型是否在任意胁迫中发生立场翻转及其具体转向的选项,为研究模型信念稳定性提供了可量化的指标。
使用方法
使用该数据集时,研究人员可通过HuggingFace的datasets库直接加载,并利用内置的过滤功能高效筛选不同阶段的实验样本。例如,通过filter函数筛选出“stage_reached”为“full”的完整实验记录,或定位“any_collapsed”为True的样本以计算信念崩溃率(BCR)。数据集中的“challenges”字段包含了完整的对话交互链,可直接用于分析模型在多轮胁迫下的推理路径变化;而“coercion_results”与“baseline_reasoning”字段则支持对比模型在无胁迫与胁迫条件下的推理一致性,从而开展针对模型鲁棒性、对抗性推理及多元对齐等方向的研究。
背景与挑战
背景概述
在大语言模型(LLM)安全性评估的前沿领域,模型在面对对抗性压力时展现出的推理一致性问题日益受到关注。由Kargaran Amir等人于2026年4月创建的coercion-test数据集,旨在系统性地探究LLM在压力胁迫下产生自我矛盾的现象。该数据集基于MMLU基准,使用Google Gemma-4-31B-it模型,通过设计多轮对话施加“高压”,迫使模型在已给出正确答案后,针对其他选项重新生成推理,并最终检测其是否发生信念崩塌(Belief Collapse)。其核心研究问题聚焦于模型推理的鲁棒性,即模型在外部逻辑压力下能否坚持正确判断。该数据集首次以量化方式揭示了高达10.6%的信念崩塌率(BCR),为多元对齐(Pluralistic Alignment)与对抗性推理研究提供了关键实证,对评估LLM的可靠性与安全性具有里程碑式的影响。
当前挑战
该数据集所解决的领域问题核心在于LLM在面对故意施加的认知压力时,其推理链条的脆弱性——即便模型初始答案正确,经过针对性的逻辑引导后仍可能发生自我否定,这直接挑战了模型作为可信推理者的基本假设。在构建过程中,面临的主要挑战包括:其一,如何设计有效且可复现的“压力对话”模板,确保能系统性地探测而非随机诱发模型的信念翻转;其二,需要精细控制推理长度(3/10/20句)、归因类型(blind/self)及压力等级(low/medium/high)等多个变量,以分离不同因素对模型稳定性的影响;其三,大规模构建高质量的压力对话记录(共2,052行,耗时704分钟)并保证自动化标注的准确性,特别是在多轮对话中准确追踪模型是否真正发生认知崩塌(collapsed),而非仅因格式问题输出错误答案。
常用场景
经典使用场景
在大型语言模型的安全性与鲁棒性评估领域,coercion-test数据集通过精心设计的压力胁迫推理范式,成为衡量模型在对抗性引导下自我矛盾倾向的标杆。该数据集基于MMLU基准构建,利用Gemma-4-31B-IT模型在高压力条件下生成包含10句推理链的测试样本,系统性地考察模型在面对外部逻辑压力时是否偏离初始正确判断。研究者通过分析模型在逐步推理过程中被诱导向错误选项坍塌的比率(BCR),量化模型推理的脆弱性,为理解语言模型推理的一致性与可靠性提供了可复现的实验框架。
解决学术问题
该数据集精准解决了当前大语言模型研究中一个关键的理论难题——模型推理的鲁棒性边界。传统评估方法多关注答案正确率,却忽视了模型在受到针对性逻辑胁迫时是否发生信念崩溃。coercion-test通过压力梯度(低/中/高)、推理长度(3/10/20句)和归因模式(盲/自归因)的多维控制,首次系统刻画了模型在对抗性交互中从正确基准到错误坍塌的动力学过程。其提出的BCR指标为学术界提供了量化模型推理脆弱性的标准工具,揭示了即使在高性能模型中也存在的深层逻辑不稳定性,推动了pluralistic alignment与对抗性推理理论的发展。
衍生相关工作
coercion-test数据集的发布催生了一系列具有深远影响的衍生研究。最显著的工作包括基于该数据集的对抗性提示优化算法研究,研究者开发出能够自动生成最高效胁迫策略的搜索方法,进一步深化了模型推理脆弱性的理解。在模型改进层面,衍生出多种鲁棒性训练框架,如压力暴露微调(Pressure-Exposure Fine-tuning)和逻辑锚定机制(Logic Anchoring Mechanism),这些方法通过在训练过程中引入胁迫样本显著提升了模型的抗压推理能力。此外,该数据集启发了跨模型族的鲁棒性比较研究,催生了多个针对不同参数规模和架构模型的压力测试扩展版本,形成了完整的模型推理一致性评估生态。
以上内容由遇见数据集搜集并总结生成



