cot-oracle-eval-rot13-reconstruction

Hugging Face2026-02-24 更新2026-02-25 收录

下载链接：

https://huggingface.co/datasets/ceselder/cot-oracle-eval-rot13-reconstruction

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'CoT Oracle Eval: rot13_reconstruction'，专注于链式思考（CoT）评估和不忠实检测。数据集采用MIT许可证，包含100个训练样本，每个样本包含多个特征字段，如评估名称、示例ID、干净提示、测试提示、正确答案、推动答案等。此外，还包含多个元数据字段，如预计算的Qwen3-8B CoT响应和提取的答案。数据集来源于ceselder/qwen3-8b-math-cot-corpus，是CoT Oracle Evals集合的一部分。适用于链式思考模型的评估和测试场景。

This dataset, named 'CoT Oracle Eval: rot13_reconstruction', focuses on chain-of-thought (CoT) evaluation and unfaithful detection. It is licensed under the MIT License and contains 100 training samples. Each sample includes multiple feature fields such as evaluation name, example ID, clean prompt, test prompt, correct answer, prompted answer, and others. Additionally, it features multiple metadata fields including pre-computed Qwen3-8B CoT responses and extracted answers. The dataset is sourced from ceselder/qwen3-8b-math-cot-corpus and is part of the CoT Oracle Evals collection. It is applicable to evaluation and testing scenarios for chain-of-thought models.

创建时间：

2026-02-22

搜集汇总

数据集介绍

构建方式

在思维链推理评估领域，cot-oracle-eval-rot13-reconstruction数据集采用了精密的构造方法。其核心源于ceselder/qwen3-8b-math-cot-corpus，通过引入ROT13编码机制对原始的思维链进行转换，构建了一种需要模型进行重构的评估任务。数据集中每个样本均包含未经干扰的原始提示与经过特定操纵的测试提示，并预先计算了Qwen3-8B模型在两种提示下的完整推理过程与答案，从而为评估模型的忠实性与鲁棒性提供了结构化的对比基础。

特点

该数据集在思维链不忠实性检测方面展现出鲜明的特征。其核心设计在于利用ROT13编码对推理过程进行遮蔽，要求评估模型（即“先知”）能够逆向还原原始的思维链，这直接针对模型内部推理与最终输出的一致性进行检验。数据集提供了丰富的元数据字段，包括模型在干净与测试提示下的完整响应、提取的答案以及问题来源、主题和评估指标等信息，形成了一个多维度、可追溯的评估框架，便于深入分析模型在不同干预下的行为变化。

使用方法

对于研究人员而言，该数据集的使用方法清晰而直接。通过Hugging Face的datasets库，可以便捷地加载数据集的训练分割。典型的使用场景涉及对比分析模型在‘clean_prompt’与‘test_prompt’下生成的思维链（‘meta_normal_cot’与‘meta_rot13_cot’）及其最终答案，从而量化评估模型推理过程对外部提示操纵的敏感性或忠实度。该数据集是更广泛的CoT Oracle Evals集合的一部分，可与同系列其他评估任务结合，系统性地探究大语言模型推理的可靠性。

背景与挑战

背景概述

在大型语言模型推理能力评估领域，CoT Oracle Eval: rot13_reconstruction数据集于近期由研究人员ceselder构建并发布，隶属于CoT Oracle Evals系列。该数据集的核心研究聚焦于链式思维推理的忠实性检测问题，旨在评估模型在面对经过ROT13编码的推理过程时，能否准确重构原始思维链并给出正确解答。通过引入预计算的Qwen3-8B模型响应作为元数据，该数据集为探究语言模型内部推理机制与外部提示操纵之间的相互作用提供了精细化的实验基准，对推动可解释人工智能与鲁棒性评估研究具有重要价值。

当前挑战

该数据集致力于解决链式思维推理中不忠实性检测的挑战，即模型可能生成看似合理但逻辑错误的推理路径，或轻易被外部提示所误导。具体而言，构建过程面临双重困难：其一，设计有效的提示操纵策略以诱导模型产生不忠实推理，同时确保评估任务具有足够的区分度与泛化性；其二，生成高质量、多样化的基准思维链数据，并准确提取与标注模型响应中的答案与推理过程，这需要精细的自动化流程与人工校验相结合，以保障数据集的可靠性与评估的严谨性。

常用场景

经典使用场景

在大型语言模型推理能力评估领域，该数据集通过ROT13编码的思维链（CoT）重构任务，为研究者提供了一个标准化的测试平台。其核心设计在于利用加密后的推理过程，要求模型恢复原始思维链，从而精准评估模型对复杂逻辑结构的理解与还原能力。这一场景常用于检验模型在对抗性干扰下的鲁棒性，以及其内部推理机制的真实性，为模型透明度研究提供了关键数据支撑。

解决学术问题

该数据集主要针对大型语言模型中存在的推理不忠实性检测问题，通过对比清洁提示与干扰提示下的模型响应，揭示了模型在外部诱导下可能产生的逻辑偏差。它解决了评估模型推理过程是否真正基于内部计算而非表面模式匹配的学术难题，为量化模型的可信度与一致性提供了方法论基础。其意义在于推动了可解释人工智能领域的发展，促使研究者设计更严谨的评估框架以防范模型潜在的欺骗性行为。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在推理忠实性基准构建与模型鲁棒性增强方面。例如，基于类似框架的扩展研究开发了多模态干扰评估集，进一步探究了不同编码方式对模型推理的影响。同时，部分工作利用该数据集的对比机制，提出了新的正则化训练方法，以提升模型对恶意提示的免疫力。这些衍生成果共同丰富了可信人工智能的研究图谱，推动了评估标准与训练技术的协同进化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集