ReTraceQA
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://huggingface.co/datasets/sapienzanlp/ReTraceQA
下载链接
链接失效反馈官方服务:
资源简介:
ReTraceQA 是一个用于评估小型语言模型(SLMs)在常识推理任务中推理轨迹的数据集。它包含四个基准数据集的模型生成轨迹:CommonsenseQA、OpenBookQA、QASC 和 StrategyQA。在构建过程中,仅保留了原始基准中的正确实例,并手动移除了错误实例以确保数据质量。每个数据项包含一个分段为原子步骤(“段落”)的推理轨迹,以及一个人工标注的标签,指示第一个错误步骤的索引。如果没有错误,标签设置为 -1,表示推理轨迹完全正确。此外,对于包含错误的轨迹,每个数据项还包括一个错误分类,指定错误的类型:hallucination、reasoning 或 misinterpretation。数据集结构包括以下字段:question(问题文本)、choices(选项文本)、facts(用于评估的事实文本)、model_output(SLM 生成的推理链)、model_name(使用的 SLM 名称)、annotation(错误步骤索引)、error_class(错误类别)和 dataset_index(唯一索引)。数据集统计信息包括错误索引和错误类别的分布。
创建时间:
2026-04-10
搜集汇总
数据集介绍

构建方式
在构建ReTraceQA数据集时,研究者们聚焦于常识推理领域,从四个经典基准数据集——CommonsenseQA、OpenBookQA、QASC和StrategyQA中筛选出正确答案的实例,并剔除了原始数据中的错误样本,以确保数据的高质量与可靠性。随后,利用小型语言模型为每个问题生成合成的推理轨迹,并将这些轨迹分割为原子化的段落。关键的一步在于人工标注环节,专家们仔细审查每条推理链,标注出第一个错误步骤的索引,若无错误则标记为-1,同时对存在错误的轨迹进行了细致的错误分类,包括幻觉、推理失误和误解三类,从而构建了一个结构清晰、标注精细的评估资源。
特点
ReTraceQA数据集的核心特点在于其专门为评估小型语言模型的推理轨迹而设计,涵盖了多样化的常识推理任务。数据集不仅提供了问题、选项、模型输出等基础字段,更独具匠心地包含了人工标注的错误步骤索引和错误类型分类,这为深入分析模型推理的薄弱环节提供了精确的视角。其数据来源于多个权威基准,确保了任务的代表性和挑战性;而统一的JSON结构和清晰的字段定义,则极大便利了研究者的数据处理与分析工作,使其成为推动可解释人工智能与模型诊断研究的重要工具。
使用方法
使用ReTraceQA数据集时,研究者可首先通过HuggingFace平台加载其四个子配置,分别对应不同的常识推理任务。每个数据条目均以结构化JSON格式呈现,用户可依据`model_output`字段分析模型生成的推理链,结合`annotation`字段定位错误起始步骤,并参考`error_class`字段理解错误性质。该数据集适用于训练或评估旨在检测、纠正或生成更可靠推理轨迹的模型,亦可用于进行细致的错误类型统计分析,从而为提升语言模型的推理透明度和准确性提供实证基础。
背景与挑战
背景概述
ReTraceQA数据集由Francesco Maria Molfese等研究人员于2025年构建,旨在系统评估小型语言模型在常识推理任务中的推理轨迹质量。该数据集整合了CommonsenseQA、OpenBookQA、QASC及StrategyQA四个经典常识问答基准,通过保留原始数据中正确的问答实例,并引入人工标注的推理步骤错误索引与错误类型分类,为模型推理能力的可解释性分析提供了结构化评估框架。其核心研究问题聚焦于揭示小型语言模型在生成多步推理链时产生的隐性错误模式,从而推动语言模型在复杂推理场景下的透明性与可靠性研究,对自然语言处理领域的模型诊断与优化具有重要参考价值。
当前挑战
ReTraceQA所应对的领域挑战在于,现有常识推理评估往往仅关注最终答案的正确性,而缺乏对模型内部推理过程错误根源的细粒度剖析。该数据集通过标注推理链中首个错误步骤的索引及错误类别(如幻觉、推理谬误或误解),旨在解决模型推理可追溯性与错误归因的难题。在构建过程中,研究团队需从原始数据中筛选正确实例,并人工审查模型生成的推理轨迹,确保错误标注的准确性与一致性,这一过程面临标注成本高昂、错误类型界定模糊以及跨数据集推理模式归一化等多重挑战。
常用场景
经典使用场景
在常识推理研究领域,ReTraceQA数据集为评估小型语言模型的推理轨迹提供了标准化基准。该数据集整合了CommonsenseQA、OpenBookQA、QASC和StrategyQA四个经典常识问答基准,通过保留原始数据中正确的实例并移除错误样本,构建了高质量的推理轨迹集合。研究者通常利用该数据集分析模型在生成多步推理链条时的表现,特别是识别推理过程中首次出现错误的步骤位置,从而深入探究模型在常识理解与逻辑推导方面的能力边界。
解决学术问题
ReTraceQA主要致力于解决自然语言处理中关于模型可解释性与推理可靠性评估的学术难题。该数据集通过人工标注的误差步骤索引和误差类别(如幻觉、推理错误、误解),为量化分析小型语言模型在常识推理任务中的错误模式提供了结构化数据支撑。其意义在于推动了细粒度推理评估方法的发展,使研究者能够超越传统准确率指标,从推理链条的完整性、逻辑一致性等维度系统评估模型性能,对提升语言模型的透明度和可信赖性具有重要影响。
衍生相关工作
围绕ReTraceQA数据集,已衍生出一系列专注于推理轨迹分析与改进的经典研究工作。这些工作通常基于该数据集提供的误差分类与步骤标注,开发新型的推理评估指标或训练方法。例如,部分研究利用其标注数据训练误差检测模型,以自动识别推理链条中的缺陷;另一些工作则结合误差分析结果,设计针对性的数据增强或提示优化策略,以提升小型语言模型在复杂常识推理任务中的表现。这些衍生研究共同推动了可解释人工智能在自然语言处理领域的深入发展。
以上内容由遇见数据集搜集并总结生成



