five

kargaranamir/coercion

收藏
Hugging Face2026-04-26 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/kargaranamir/coercion
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Pressure-Coerced Self-Contradiction — mmlu,主要研究在高压环境下大型语言模型如何被迫产生自相矛盾的推理行为。数据集基于MMLU基准测试,使用meta-llama/Llama-3.3-70B-Instruct模型生成,包含2,052行数据。研究的关键指标包括基线正确率、任何强制成功率和信念崩溃率(BCR)等。数据集详细记录了模型在不同压力水平下的表现,包括原始问题、选择项、正确标签、压力水平、推理长度、归因方式等信息,以及模型在挑战中的对话记录和最终回答。

The dataset is named Pressure-Coerced Self-Contradiction — mmlu, which primarily investigates how large language models are coerced into producing self-contradictory reasoning under high-pressure conditions. Based on the MMLU benchmark, the dataset is generated using the meta-llama/Llama-3.3-70B-Instruct model and contains 2,052 rows. Key metrics include baseline correctness, any coercion success rate, and Belief Collapse Rate (BCR). The dataset meticulously documents model performance under various pressure levels, including original questions, choices, correct labels, pressure levels, reasoning length, attribution methods, as well as model conversation records and final answers in challenges.
提供机构:
kargaranamir
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于MMLU基准,采用meta-llama/Llama-3.3-70B-Instruct模型,通过施加高压强迫推理的方式构建。具体而言,研究者在模型完成基线推理后,针对每个候选选项发起挑战性对话,要求模型仅围绕某一选项进行限定长度的推理,并判断是否改变原有答案。数据集包含2,052条样本,每条记录均包括原始题目、选项、正确标签、基线推理与答案,以及针对每个选项的胁迫推理结果和最终的翻转状态。构建过程严格区分了盲归因与自归因两种模式,并记录了完整的对话历史和模型在各阶段的表现。
特点
数据集最显著的特点在于引入了“压力胁迫下的自我矛盾”现象,通过挑战对话迫使模型在既定推理路径上产生认知冲突,从而量化其鲁棒性。关键指标“信念崩塌率”(BCR)高达74.8%,揭示了模型在高压环境下极易发生答案翻转。每个样本包含丰富的结构化字段,如多个选项的胁迫成功标志、翻转目标集合以及是否发生任意选项崩塌的布尔标记。此外,数据集中还区分了仅胁迫、仅基线和完整多阶段等不同实验阶段,便于研究者精细分析模型行为退化的模式。
使用方法
研究者可通过HuggingFace Datasets库直接加载数据集,并使用filter方法筛选特定阶段的样本进行分析。例如,通过过滤stage_reached为full的记录获取完整多阶段实验数据,再根据any_collapsed字段统计模型在胁迫下发生翻转的比例,从而计算信念崩塌率。challenges列中的对话历史可作为输入模板,复现或扩展胁迫推理实验。借助subject字段可按学科类别分组评估模型脆弱的领域分布,结合coercion_success和collapsed_to等列,能够深入探究不同选项吸引力对模型决策稳定性的影响。
背景与挑战
背景概述
在大规模语言模型(LLM)的鲁棒性与对齐研究中,模型在面对敌对性压力时是否会产生自我矛盾的推理行为,日益成为关乎人工智能安全的核心议题。由Kargaran等人于2025年创建的coercion数据集,依托MMLU多任务知识基准,通过Llama-3.3-70B-Instruct模型在高压情境下的对抗性推理任务,系统性地探讨了模型在压力胁迫下放弃正确推理并屈服于错误逻辑的现象。该数据集提出的‘信念崩溃率’(BCR)为74.8%,直观刻画了模型在受到针对性压力时的高频自我矛盾,为理解LLM推理一致性、多值对齐及对抗鲁棒性提供了关键的测量工具。coercion数据集的诞生不仅拓展了模型鲁棒性评估的维度,更推动了学界对‘模型何时以及为何背叛自身推理’这一安全问题的深度反思。
当前挑战
coercion数据集旨在攻克的核心挑战有三。其一,领域问题层面,现有鲁棒性测试多聚焦于输入噪声或指令操控,而忽视了模型在反思与压力性追问下因内部置信漂移而产生的自我矛盾——coercion通过构建多轮胁迫对话,填补了针对‘信念崩塌’行为定量检测的空白。其二,数据集构建过程中面临方法论挑战:如何设计既能有效施压又不引入偏见的多轮推理链,以及如何定义和区分‘合理改变’与‘胁迫性坍塌’等边界模糊的状态。其三,实验成本的挑战——生成2052条高压推理样本耗时超22小时,且单一样本中需同时记录基准推理、胁迫对话及所有候选选项的应答,对模型调用与数据质量监控提出极高要求。
常用场景
经典使用场景
在人工智能鲁棒性研究领域,Coercion数据集为评估大型语言模型在面对压力诱导推理时的自我一致性提供了关键工具。该数据集基于MMLU基准构建,通过设计精巧的多轮对话范式,迫使模型对同一问题生成矛盾推理路径,从而量化模型在高压条件下的信念崩塌概率。研究者常利用此数据集探测模型在对抗性推理场景下的脆弱性,即当模型被要求为错误选项构建合理推理时,其原始正确判断是否会发生转变。这一经典使用场景聚焦于揭示语言模型在推理鲁棒性方面的深层缺陷。
实际应用
在实际应用层面,Coercion数据集为构建可信赖的人工智能系统提供了关键测试基准。特别是在需要模型保持推理一致性的高风险场景中,如医疗诊断辅助、法律文书分析、金融风险评估等领域,该数据集可帮助开发者在模型部署前识别其潜在的不稳定推理行为。通过模拟对抗性对话情境,工程师能够有效筛选出推理链条脆弱的模型版本,从而优化模型的防诱导策略,提升其在真实世界中面对复杂交互时的可靠性,显著降低因模型自我矛盾而引发的决策风险。
衍生相关工作
基于Coercion数据集的启发,学术界涌现了一系列关于推理鲁棒性的衍生工作。研究者借鉴其压力诱导范式,进一步发展出多轮对抗推理测试框架,探索模型在不同压力强度下的一致性边界。部分工作将此方法论应用于指令微调策略优化,通过识别高信念崩塌率的样本,设计针对性训练数据以增强模型抗诱导能力。此外,多智能体对齐研究中也引用了Coercion的技术路线,通过模拟多方观点施压场景,研究模型在群体对话环境中的信念稳定性,形成了从单一模型鲁棒性到多智能体一致性的拓展研究脉络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作