cot-oracle-convqa-chunked
收藏Hugging Face2026-05-12 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/cds-jb/cot-oracle-convqa-chunked
下载链接
链接失效反馈官方服务:
资源简介:
CoT Oracle: Chunked ConvQA (Haiku-rerun) 是一个专门用于评估和基准测试模型在信息间隙(oracle或info-gap)场景下推理能力的对话式问答(ConvQA)数据集。其构建方法基于大型语言模型(Anthropic Haiku 4.5)阅读完整思维链(CoT)文档,在自然转折点分割后生成问题(第一轮),仅基于前缀生成基线答案(第二轮),仅基于后缀生成标准答案(第三轮)。数据集通过比较基线答案与标准答案,由Haiku 4.5自动评分,以衡量模型利用有限上下文填补信息缺口的能力。数据来源于`cds-jb/cot-oracle-convqa-chunked`数据集的`cot_text`字段,经过句子级分词处理。每个样本包含原始问题文本、完整思维链文档、生成的问题、标准答案、基线答案及丰富元数据(如分割点、句子数量、来源任务域如MATH、GSM8K等、文档标识符)。新增字段包括:1) `target_response_distractor`:一个与标准答案在长度、结构和词汇上高度匹配但包含关键事实错误的强干扰项,用于更困难的识别评估;2) `question_category`:二元分类标签,将问题区分为“元认知类”(询问说话者状态或推理过程)和“程序类”(询问推理内容如计算或事实)。数据集规模为训练集26,180条,测试集2,890条,总计29,070条样本。基线模型在测试集上的平均正确率为57.5%,平均分级得分为0.588(5分制)。适用于模型推理分析、信息提取、答案识别(尤其存在强干扰项时)以及元认知与程序性提问理解等方面的评估和研究。
CoT Oracle: Chunked ConvQA (Haiku-rerun) is a conversational question answering (ConvQA) dataset specifically designed for evaluating and benchmarking model reasoning capabilities in information-gap (oracle or info-gap) scenarios. Its core construction pattern involves: first, a large language model (Anthropic Haiku 4.5) reads a complete chain-of-thought (CoT) document and selects a natural turning point to split it, generating a question about the suffix content (which cannot be directly inferred from the prefix, first round). Then, the model generates a baseline (BB) answer based solely on the prefix (second round). Finally, the model generates a ground truth (GT) answer based solely on the suffix (third round). The dataset automatically scores by comparing baseline answers with ground truth answers using the Haiku 4.5 model, thereby measuring the models ability to fill information gaps with limited context (prefix). The content primarily originates from the `cot_text` field of the `cds-jb/cot-oracle-convqa-chunked` dataset (full documents), processed with sentence-level tokenization. Each data sample includes the original question text, complete CoT document, generated question, ground truth answer, baseline answer, and rich metadata for reproduction and analysis, such as document prefix/suffix split points, sentence counts, source task domains (e.g., MATH, GSM8K), and unique document identifiers. The dataset specifically adds two new fields: 1) `target_response_distractor`: a strong distractor that closely matches the ground truth answer in length, structure, and vocabulary but contains a key factual error, used for more difficult recognition evaluation. 2) `question_category`: a binary classification label that categorizes generated questions into metacognitive (inquiring about speaker state or reasoning process itself, such as final answer, confidence, strategy shifts) and procedural (inquiring about reasoning content, such as calculations, formulas, factual recall). The dataset scale is 26,180 training samples and 2,890 test samples, totaling 29,070 samples. The baseline model achieves an average accuracy of 57.5% on the test set, with an average graded score of 0.588 (on a 5-point scale). It is suitable for evaluating and researching model reasoning analysis, information extraction, answer recognition (especially with strong distractors), and understanding of metacognitive vs. procedural questions.
创建时间:
2026-05-09
搜集汇总
数据集介绍

构建方式
该数据集基于信息缺口(info-gap)范式构建,旨在评估语言模型在仅拥有部分上下文信息时对推理内容的回溯能力。构建过程包含三轮交互:首先,Haiku 4.5模型阅读完整文档,自动选取一个自然的转折点作为切分边界,并生成一个关于后缀内容的问题,该问题无法从前缀中推导;其次,模型仅观察前缀部分,生成基准答案(BB);最后,模型仅观察后缀部分,生成真实答案(GT)。所有生成与评分工作均通过Anthropic的消息批处理API完成,批次大小为每请求5行,温度参数设为1.0。数据集进一步引入了target_response_distractor列,由Haiku 4.5根据长度、结构、词汇和事实翻转等约束生成具有上下文感知的、貌似合理但错误的干扰项,用于提升评估难度。此外,question_category列通过温度为零的分类器将问题划分为元认知类与程序类,为推理分析提供更细粒度的标注。
特点
该数据集的核心特点在于其精细的评估设计,通过三重问答结构(问题、前缀答案、后缀答案)系统性地衡量模型在信息不对称条件下的推理缺口弥补能力。每个样本均包含二元正确性判断与五级评分,分别记录基准答案与真实答案的匹配程度,为模型性能提供量化标尺。干扰项的设计独具匠心,通过事实翻转而非简单改写生成具有高度迷惑性的负面样本,显著增强了评估的区分度。数据集还提供了cot_prefix与cot_suffix字段,清晰展示了推理文档在自然转折点处的切分情况,便于研究者深入分析模型在不同上下文片段上的表现差异。源领域涵盖MATH、GSM8K等多种数学推理任务,保证了评估场景的多样性。
使用方法
用户可通过HuggingFace数据集加载接口直接使用该数据集,指定config名称为default,并选择train或test分片。训练集包含26180个样本,测试集包含2907个样本,均按cot_id的哈希值进行分配,确保同一文档的全部数据位于同一分片中。每个样本包含question、prompt、target_response等关键字段,可直接用于评估语言模型在部分上下文条件下的推理回溯能力。建议使用方可将bb_response与target_response进行对比,计算bb_correct与bb_score指标以量化模型表现。对于需要难度升级的评估场景,可利用target_response_distractor字段作为负样本,测试模型的抗干扰能力。数据集的generation_prompt字段提供了完整的生成提示,支持对生成过程进行复现与调试。
背景与挑战
背景概述
CoT Oracle Chunked ConvQA数据集由Anthropic研究团队于2025年创建,旨在探索大语言模型在推理过程中的信息缺口(info-gap)现象。该数据集围绕思维链(Chain-of-Thought)推理的核心研究问题展开,通过设计三阶段问答范式——从完整文档中选取自然转折点、仅基于前缀或后缀生成答案——来系统评估模型在缺失关键上下文时的推理稳健性。数据集包含超过29,000个样本,覆盖数学、伦理等多个任务领域,其独特的干扰项设计与元认知分类标注为细粒度分析模型推理行为提供了重要基准,对理解与提升语言模型的可靠性产生了深远影响。
当前挑战
该数据集的构建面临多重挑战。领域层面上,核心挑战在于如何精确定义并测度语言模型在推理过程中因信息缺失而产生的“错误但可信”的替代答案,这要求具备对模型认知状态的深刻理解。构建过程中,研究人员需要解决自动选取自然转折点的技术难题,确保前缀与后缀的语义鸿沟能够有效反映真实推理缺口;同时,生成与正确答案长度、结构、词汇风格高度匹配但事实错误的干扰项(distractor)任务极具复杂性,需严格控制温度参数与批次处理以避免语义漂移。此外,元认知与程序性问题的二元分类精度及API批处理的错误残留问题,亦是数据质量控制中的严峻挑战。
常用场景
经典使用场景
在认知科学与人工智能的交叉领域中,Cot-Oracle-ConvQA-Chunked数据集为探究大型语言模型推理过程的可解释性提供了独特窗口。该数据集通过构造‘信息缺口’场景,将完整的思维链文本分割为前缀与后缀两部分,并设计针对性问题来评估语言模型在仅知悉前文的情况下能否准确推断后续内容。这种范式广泛应用于语言模型的归因分析、知识边界探测以及长程依赖建模的基准测试中,成为衡量模型深层理解能力而非浅层模式匹配的关键工具。
解决学术问题
学术界长期面临的核心困扰之一,是如何区分语言模型究竟是进行了真正的逻辑推演还是仅在执行精妙的文本模式匹配。该数据集通过精巧的Oracle评测框架直接回应了这一难题——模型仅凭前缀信息恢复后缀内容的能力,本质上是衡量其是否在隐藏层中编码了远超表面词汇分布的世界知识与推理结构。这一任务直击语言模型可解释性的要害,为揭示Transformer架构下隐层表征的语义组织原则提供了可量化的实验平台,深刻推动了关于‘理解’与‘记忆’在神经网络中边界的研究。
衍生相关工作
该数据集的发布催生了一系列关于语言模型内省机制的延伸探索。基于其Oracle评测框架,研究者进一步开发了面向模型置信度校准的动态探测方法,利用前缀与后缀信息的不对称性构建元认知评估指标。另一条经典路径是将该范式迁移至多模态场景,构建视觉与文本间的信息缺口数据集以分析大模型的跨模态推理连贯性。值得一提的是,其所定义的‘元认知’与‘程序性’问题分类体系,启发了众多关于模型自省能力与事实性知识调用之间交互机制的后续研究。
以上内容由遇见数据集搜集并总结生成



