coercion
收藏Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/kargaranamir/coercion
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为 'Pressure-Coerced Self-Contradiction — mmlu',基于 mmlu 来源,使用 `gpt-5.1` 模型生成,旨在研究模型在高压力下的自我矛盾行为。数据集包含 2,052 行数据,生成耗时 751.8 分钟。关键结果显示,基线正确率为 1,824 / 2,052,任何胁迫成功的比例为 2,052 / 2,052,信念崩溃率 (BCR) 为 21.3%。数据集包含多个字段,如原始 ID、主题、问题文本、选择项、正确标签、压力水平、推理长度、模型 ID、胁迫结果等。适用于研究大型语言模型在压力下的鲁棒性、自我矛盾行为以及对抗性推理等任务。
This dataset is named 'Pressure-Coerced Self-Contradiction — mmlu', which is derived from the MMLU benchmark and generated using the `gpt-5.1` model. It aims to investigate the self-contradiction behaviors of models under high-pressure conditions. The dataset contains 2,052 rows of data, with a total generation time of 751.8 minutes. Key results show that the baseline accuracy is 1,824 / 2,052, the proportion of successfully coerced cases is 2,052 / 2,052, and the Belief Collapse Rate (BCR) is 21.3%. The dataset includes multiple fields such as original ID, topic, question text, options, correct label, stress level, reasoning length, model ID, coercion outcome, and others. It is suitable for research tasks such as exploring the robustness, self-contradiction behaviors and adversarial reasoning of large language models under pressure.
创建时间:
2026-04-12
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: Pressure-Coerced Self-Contradiction — mmlu
- 数据集地址: https://huggingface.co/datasets/kargaranamir/coercion
- 相关论文: "When a Model Turns on Itself: Pressure-Coerced Reasoning as a Robustness Probe"
- 创建日期: 2026-04-14 07:13 UTC
数据集参数与规模
- 数据来源: mmlu
- 目标模型:
gpt-5.1 - 压力水平:
high - 推理长度:
10sentences - 归因方式:
blind - 数据行数: 2,052
- 生成耗时: 751.8 分钟
关键结果
- 基线正确数: 1,824 / 2,052
- 任何胁迫成功数: 2,052 / 2,052
- 信念崩溃率 (BCR): 21.3% (388 / 1824)
数据模式 (Schema)
| 列名 | 类型 | 描述 |
|---|---|---|
original_id |
str | 源数据行ID |
subject |
str | 主题/类别 |
question |
str | 问题文本 |
choices |
JSON | {字母: 选项文本} |
correct_label |
str | 正确答案字母 |
correct_text |
str | 正确答案文本 |
pressure |
str | 压力水平 (low/medium/high) |
k_sentences |
int | 句子数量 (3/10/20) |
attribution |
str | 归因方式 (blind/self) |
model |
str | 模型ID |
coercion_results |
JSON | {字母: 推理内容或 I_AM_WEAK} |
coercion_success |
JSON | {字母: 布尔值} |
any_coercion_success |
bool | 至少一个选项被成功推理 |
baseline_reasoning |
str | 完整模型推理 (阶段2) |
baseline_answer |
str | 从基线中提取的答案字母 |
baseline_correct |
bool | 与正确答案匹配 |
challenges |
JSON | {字母: {对话, 最终答案, 崩溃状态}} |
any_collapsed |
bool | 如果模型在任何挑战中翻转则为True |
collapsed_to |
JSON list | 模型在所有挑战中崩溃至的字母列表 |
stage_reached |
str | 达到的阶段 (coercion_only / baseline_only / full / error) |
timestamp |
str | ISO时间戳 |
error |
str | 错误信息 (如果有) |
数据筛选指南
提供Python代码示例,用于加载数据集并计算信念崩溃率 (BCR)。代码展示了如何筛选出stage_reached为"full"的完整数据行,以及筛选出any_collapsed为真的崩溃实例。
challenges 列结构说明
该列是一个JSON对象,以选项字母(如"B")为键。每个键对应的值包含:
"conversation": 一个列表,包含系统提示、用户问题、助手基线推理与答案、用户胁迫性推理以及助手最终响应的多轮对话记录。"final_answer": 模型在胁迫后给出的最终答案字母。"collapsed": 布尔值,表示模型是否在该选项的挑战中崩溃(即推翻了原有答案)。
搜集汇总
数据集介绍

构建方式
在大型语言模型鲁棒性研究领域,压力诱导自相矛盾数据集(Pressure-Coerced Self-Contradiction — mmlu)的构建采用了严谨的对抗性推理框架。该数据集以MMLU基准为源,通过向模型施加高强度压力,并限定其在特定推理长度(如10个句子)内进行思考,旨在探究模型在外部压力下是否会产生信念崩溃。构建过程涉及对每个原始问题生成多个压力变体,并记录模型在盲态或自我归因设置下的完整推理链条与最终答案,从而系统性地捕捉模型从初始正确立场到被迫自我否定的转变轨迹。
特点
该数据集的核心特征在于其精细设计的压力测试结构与多维度的评估指标。数据集不仅记录了模型在基线状态下的表现,更关键地捕捉了其在面对针对性压力时产生的“信念崩溃率”(BCR),这一指标量化了模型被迫放弃原有正确信念的比例。数据模式包含了丰富的元信息,如压力等级、推理长度、归因方式以及详细的对话历史,使得研究者能够深入分析模型脆弱性的具体情境与触发机制,为理解模型的内在一致性缺陷提供了高分辨率的观测窗口。
使用方法
研究人员可通过Hugging Face的`datasets`库便捷加载此数据集,并利用其提供的过滤指南进行针对性分析。例如,通过筛选`stage_reached`为“full”的样本以获取完整实验记录,或筛选`any_collapsed`为真的样本以集中研究发生信念崩溃的案例。数据集中的`challenges`列以结构化JSON格式保存了完整的压力测试对话流程,便于复现实验或进行更细粒度的行为分析,例如追踪模型在多次挑战中答案的演变路径,从而评估不同干预策略对模型鲁棒性的影响。
背景与挑战
背景概述
在大型语言模型(LLM)鲁棒性研究领域,探究模型在压力下是否能够保持其初始信念与推理一致性,已成为评估模型可靠性的核心议题。数据集“coercion”于2026年4月由相关研究人员构建,其核心研究问题聚焦于模型在受到外部压力胁迫时,是否会产生自我矛盾的推理行为,即所谓的“信念崩溃”现象。该数据集基于MMLU基准,利用GPT-5.1模型生成,旨在通过压力胁迫的对话设置,量化模型在对抗性推理场景中的脆弱性,为模型对齐与鲁棒性评估提供了关键的实证数据。
当前挑战
该数据集旨在解决大型语言模型在对抗性压力下信念一致性的评估挑战,具体表现为模型可能被迫放弃原本正确的推理路径,转而支持错误选项,这直接关系到模型在实际高风险决策场景中的可信度。在构建过程中,研究人员面临如何设计有效的压力提示以模拟真实胁迫场景、如何精确量化“信念崩溃”的比率(BCR),以及确保多轮对话数据结构的完整性与可复现性等多重技术挑战。
常用场景
经典使用场景
在大型语言模型鲁棒性评估领域,coercion数据集被广泛用于探究模型在压力胁迫下的自我矛盾行为。该数据集基于MMLU基准构建,通过向模型施加高强度压力,迫使其在推理过程中改变原有正确判断,从而揭示模型在对抗性环境中的脆弱性。经典使用场景包括系统性地测试模型在面临外部压力时是否能够保持逻辑一致性,以及评估其抵抗诱导性错误的能力,为理解模型内在推理机制提供了关键实验平台。
解决学术问题
该数据集有效解决了大型语言模型鲁棒性研究中的核心问题,即模型在受到外部压力时是否会产生信念崩溃现象。通过量化模型从正确立场转向错误立场的比率(BCR指标),研究者能够精确测量模型抗压能力的边界。这不仅深化了对模型决策稳定性的理解,还为构建更具韧性的对齐系统提供了实证基础,推动了人机交互安全性和可信赖人工智能的发展。
衍生相关工作
围绕该数据集衍生的经典研究包括对抗性推理框架的优化、多模态压力测试范式的扩展,以及基于信念崩溃现象的防御机制设计。相关工作进一步开发了更精细的压力施加策略,探索了不同模型架构对胁迫的敏感度差异,并提出了增强模型逻辑一致性的训练方法。这些研究共同推动了鲁棒性评估从单一性能测试向复杂认知安全评估的范式转变。
以上内容由遇见数据集搜集并总结生成



