coercion_cross
收藏Hugging Face2026-04-24 更新2026-04-25 收录
下载链接:
https://huggingface.co/datasets/kargaranamir/coercion_cross
下载链接
链接失效反馈官方服务:
资源简介:
Cross-Model Coercion — mmlu 数据集是一个用于研究大型语言模型(LLM)鲁棒性和信念崩溃(belief collapse)的数据集。该数据集基于 mmlu 数据集,通过从 meta-llama/Llama-3.1-8B-Instruct 模型生成的强制推理(coercion reasoning)来挑战 meta-llama/Llama-3.3-70B-Instruct 模型。数据集包含 2,052 行数据,其中 1,241 行符合条件(基线正确且可强制)。关键指标包括交叉信念崩溃率(Cross-BCR)为 57.0%。数据集的字段包括原始 ID、强制模型、基线模型、强制归因、强制压力、强制结果、基线推理、基线答案、挑战记录等。该数据集适用于研究模型间的强制推理、信念崩溃及模型鲁棒性等任务。
创建时间:
2026-04-21
原始信息汇总
数据集概述:Cross-Model Coercion — mmlu
该数据集用于研究跨模型强制推理(Cross-Model Coercion),通过一个模型的推理结果去挑战另一个模型的基线表现。
基本信息
| 属性 | 值 |
|---|---|
| 来源数据集 | mmlu |
| 强制模型(提供推理) | meta-llama/Llama-3.1-8B-Instruct |
| 基线模型(被挑战) | meta-llama/Llama-3.3-70B-Instruct |
| 强制归因方式 | blind |
| 强制压力水平 | high |
| 强制推理句子数(k) | 10 |
| 总行数 | 2,052 |
| 合格行数(正确 + 可强制) | 1,241 |
| 生成时间 | 99.6 分钟 |
| 生成日期 | 2026-04-24 16:58 UTC |
关键结果
| 指标 | 值 |
|---|---|
| 合格样本(基线正确 + 强制成功) | 1,241 / 2,052 |
| Cross-BCR(跨模型强制崩溃率) | 57.0%(707 / 1,241) |
数据列说明
| 列名 | 描述 |
|---|---|
original_id |
源数据行ID |
coercion_model |
产生强制推理的模型 |
baseline_model |
被挑战的基线模型 |
coercion_attribution |
强制使用的归因方式(blind/self) |
coercion_pressure |
强制压力水平 |
coercion_k |
推理句子数量 |
coercion_results |
JSON格式:{选项字母: 推理文本},来自强制模型 |
coercion_success |
JSON格式:{选项字母: 布尔值},指示强制是否成功 |
any_coercion_success |
是否存在任一选项被强制成功 |
baseline_reasoning |
基线模型的完整推理文本 |
baseline_answer |
从基线模型中提取的选项字母 |
baseline_correct |
基线模型回答是否正确 |
challenges |
第三阶段对话及结果 |
any_collapsed |
基线模型是否发生翻转 |
collapsed_to |
翻转后所选的选项字母 |
stage_reached |
达到的阶段:full / baseline_wrong / coercion_failed / error |
搜集汇总
数据集介绍

构建方式
在大型语言模型的安全性与鲁棒性研究领域,模型间的推理对抗机制逐渐成为评估模型可靠性的重要维度。该数据集基于MMLU基准测试,采用跨模型强制推理方法构建:首先利用Llama-3.1-8B-Instruct作为强制模型,针对MMLU中的题目生成带有偏见的推理链;随后将这些推理链以高压力、盲归因的方式注入至Llama-3.3-70B-Instruct基线模型中,通过10句推理构建对抗性对话,最终筛选出基线模型原始回答正确但成功被强制推翻的样本,形成共计2052条数据记录。
特点
该数据集的核心特点在于其独特的跨模型对抗设计,通过小型模型生成的误导性推理链挑战大型模型的判断稳定性,揭示了模型规模与鲁棒性之间的非单调关系。数据集中标注了基线模型的原始正确性、强制成功与否以及最终信念坍塌状态,其中交叉信念坍塌率为57.0%。此外,数据集细化了强制归因方式、压力等级与推理句数等参数,为研究模型面对外部推理压力时的脆弱性提供了量化分析基础。
使用方法
研究者可将该数据集应用于大语言模型鲁棒性评估与信念坍塌现象分析。典型的使用方式包括:加载数据集后,利用coercion_results字段分析强制模型的误导策略;通过baseline_reasoning与challenges字段追踪基线模型在对抗性推理过程中的信念演变轨迹;借助any_collapsed标签统计模型在不同强制条件下的坍塌概率,进而构建鲁棒性评价指标。数据集以JSON格式存储,可直接通过Hugging Face Datasets库加载,适用于对比不同模型或训练策略的抗干扰能力。
背景与挑战
背景概述
在大型语言模型(LLM)的鲁棒性研究中,针对模型间信念传递与崩溃现象的探索正逐渐成为关键议题。coercion_cross数据集由研究团队于2026年创建,基于MMLU源数据集,旨在通过跨模型强制推理(Cross-Model Coercion)揭示高级模型在面对低级模型生成的对抗性推理时的脆弱性。该数据集以meta-llama/Llama-3.1-8B-Instruct作为强制推理模型,挑战meta-llama/Llama-3.3-70B-Instruct的基线性能,记录了2052个样本,其中1241个样本符合基线正确且强制成功的条件,交叉模型强制成功率(Cross-BCR)仅为57.0%。这一成果为评估LLM在高压力场景下的信念稳定性提供了新视角,对推动模型安全性与鲁棒性研究具有重要影响。
当前挑战
该数据集面临的核心挑战在于解决领域内模型间信念崩溃的普遍性问题。具体而言,1) 当强制模型通过高压力(high)和盲归因(blind)方式生成推理时,基线模型(70B参数)竟在43%的合格样本中被成功诱导至错误答案,暴露出大型模型对低级推理的过度依赖及其内在脆弱性。2) 构建过程中,需精确控制强制推理的句子数量(k=10)、归因类型及压力水平,以确保实验可重复性;同时要从2052个原始样本中筛选出基线正确且可被强制干扰的1241个合格样本,这一筛选过程本身需解决因模型随机性和推理一致性不足带来的数据偏差挑战。
常用场景
经典使用场景
在大型语言模型的鲁棒性研究领域,Coercion Cross 数据集提供了一种精巧的跨模型强制推理评估框架。其经典使用场景是评估一个强模型在接收到另一个弱模型生成的推理链条后,是否会发生信念崩塌——即从原本正确的答案转向错误选项。研究者通过将基础模型在MMLU任务上正确的推理过程暴露于强制压力之下,观察其高级认知是否被低级推理所动摇,从而量化模型间的脆弱性传递。这一场景尤其适用于探究模型在知识蒸馏、多智能体协作或推理链传播中的稳定性缺陷,为理解语言模型的安全边界提供了方法论支撑。
实际应用
在实际应用中,Coercion Cross 数据集的价值体现在多个前沿技术领域。例如,在构建多模型协作系统时,它警示我们需要审慎设计推理消息的传递机制,避免弱模型的偏见或错误推理通过对话链污染强模型的最终决策。在人工智能内容审核场景中,该数据集可用于测试模型是否会在对抗性推理注入下改变合规判断。此外,在安全敏感的低资源部署环境中,它帮助工程师评估模型在接收外部推理辅助时保持事实一致性的能力,从而为医疗、金融等高风险领域的决策辅助系统建立鲁棒性基线。
衍生相关工作
Coercion Cross 数据集的提出催生了一系列重要的后续研究。一方面,研究者借鉴其跨模型强制推理范式,拓展了面向不同语言、多轮对话和多任务场景的信念稳定性评估基准,例如构建了跨语言强制推理数据集以检验文化偏见传播。另一方面,相关工作利用该数据集对比了不同归因机制(如盲归因与自我归因)对模型脆弱性的影响,进而开发出对抗性推理过滤算法作为防御手段。此外,该数据集还启发了关于模型内省能力的研究,催生了“推理免疫”机制的探索,旨在让模型在面对外部推理时保持批判性思维,这些衍工作共同推动了值得信赖人工智能系统的理论进步。
以上内容由遇见数据集搜集并总结生成



