cot-oracle-eval-sycophancy

Hugging Face2026-02-24 更新2026-02-25 收录

下载链接：

https://huggingface.co/datasets/ceselder/cot-oracle-eval-sycophancy

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为 'CoT Oracle Eval: sycophancy'，旨在评估模型抵抗同意错误数学信念的能力。数据集包含100个示例，其中正确和错误答案各占一半，来源于openai/gsm8k测试和HuggingFaceH4/MATH-500测试。数据集结构包括多种提示、答案和元数据字段，特别是Qwen3-8B模型的响应。数据集是CoT Oracle Evals集合的一部分，适用于评估模型在数学问题上的忠实性和抗干扰能力。

创建时间：

2026-02-22

搜集汇总

数据集介绍

构建方式

在数学推理领域，评估模型对错误信念的抵抗能力是衡量其鲁棒性的关键环节。该数据集精心构建于两个权威数学基准之上，即OpenAI的GSM8K测试集与HuggingFaceH4的MATH-500测试集。通过设计一种独特的干预机制，为每个数学问题生成两种提示：一种是保持中立的原始提示，另一种则是嵌入了暗示错误答案的引导性提示。数据集中半数问题的引导答案正确，半数错误，并混合了不同置信水平的表述，以此模拟用户可能持有的各类错误数学信念，从而系统性地构建出用于检测模型谄媚倾向的评估场景。

特点

本数据集的核心特征在于其专注于链式思维推理过程中的不忠实行为检测，即模型是否会在用户表达错误信念时盲目附和。数据集中的每个样本均包含一对完整的提示-响应记录，不仅提供了问题的标准答案与引导答案，还预先计算并附带了Qwen3-8B模型在两种提示下的完整推理链及最终答案提取结果。这种结构使得研究者能够直接对比模型在有无干扰情况下的内部推理过程与输出变化，为深入分析模型在压力下的逻辑一致性、抗干扰能力及谄媚倾向提供了高分辨率的微观视角。

使用方法

为利用此数据集进行模型评估或相关研究，用户可通过HuggingFace的`datasets`库便捷加载。典型的使用流程始于使用`load_dataset`函数指定数据集名称与分割，随后即可访问其中丰富的字段进行深入分析。研究者可以重点考察`test_prompt`下模型的响应，对比其与`correct_answer`的差异，并借助预计算的`meta_qwen3_8b_test_response`等元数据字段，剖析模型推理链在受到引导时的偏离程度。该数据集直接服务于评估语言模型在数学推理任务中抵抗错误社会性暗示的性能，是进行模型鲁棒性、忠实性及安全对齐研究的重要工具。

背景与挑战

背景概述

随着大型语言模型在数学推理任务中的广泛应用，模型对用户输入中潜在偏见或误导性信息的鲁棒性成为关键研究议题。CoT Oracle Eval: sycophancy数据集由研究者ceselder于近期构建，旨在评估模型在链式思维推理过程中抵抗谄媚行为的能力，即当用户陈述错误数学信念时，模型能否坚持正确推理而非盲目附和。该数据集基于OpenAI的GSM8K测试集与HuggingFaceH4的MATH-500测试集构建，通过对比无干预提示与含诱导性干预的提示，深入探究模型在复杂交互情境下的忠实性表现，为提升语言模型的逻辑一致性与可靠性提供了重要基准。

当前挑战

该数据集致力于解决数学推理领域中模型谄媚行为的检测挑战，即模型倾向于迎合用户错误陈述而非坚持正确逻辑。具体挑战包括：在用户表达错误数学信念且伴随不同置信度时，模型需准确识别并抵抗诱导，维持推理过程的忠实性；数据构建过程中，需精心设计平衡的正误样本比例，确保评估的严谨性，同时从异构数学问题源中提取并标注高质量链式思维轨迹，以支撑对模型内部推理机制的深入分析。

常用场景

经典使用场景

在大型语言模型的可信度评估领域，CoT Oracle Eval: sycophancy数据集被设计用于检验模型在数学推理任务中抵抗用户错误信念诱导的能力。该数据集通过对比模型在无干扰提示（clean_prompt）与受干扰提示（test_prompt）下的响应，评估其是否能够坚持正确的数学答案，而非盲目迎合用户陈述的错误数学信念。这一场景典型地应用于模型鲁棒性测试，尤其在涉及链式思维（Chain-of-Thought）推理的数学问题求解中，为研究者提供了量化模型“阿谀”倾向的基准工具。

实际应用

在实际应用中，该数据集可用于评估和优化对话系统、教育辅助工具及专业咨询AI的可靠性。例如，在数学辅导场景中，系统需能够识别并纠正用户的错误认知，而非盲目附和。通过利用数据集中预计算的Qwen3-8B模型响应，开发者可以对比不同模型在抗干扰提示下的表现，从而筛选或微调出更稳健的模型版本，确保在实际部署中提供准确且一致的答案，增强用户信任与系统实用性。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在链式思维推理的可信度评估框架扩展上。例如，基于CoT Oracle Evals集合的研究，开发了更广泛的抗干扰评估基准，用于测试模型在各种领域（如科学问答、逻辑推理）中的忠实性。此外，相关工作还探索了利用此类数据训练模型检测自身错误或校准置信度的方法，促进了如自洽性检查、对抗性提示鲁棒性等方向的技术进展，为构建更可靠的语言模型提供了重要参考。

以上内容由遇见数据集搜集并总结生成