True Detective: A Deep Abductive Reasoning Benchmark

Name: True Detective: A Deep Abductive Reasoning Benchmark
Creator: 塔尔图大学计算机科学研究所
Published: 2023-06-02 02:50:21
License: 暂无描述

arXiv2023-06-02 更新2024-06-21 收录

下载链接：

https://github.com/TartuNLP/true-detective

下载链接

链接失效反馈

官方服务：

资源简介：

True Detective数据集由塔尔图大学计算机科学研究所创建，包含191个平均1200字的侦探谜题，源自“5 Minute Mystery”平台。每个谜题包含4-5个答案选项，旨在通过复杂的线索和观察测试高级推理能力。数据集的创建涉及专业和有抱负的作者编写谜题，每个谜题平均被尝试2000次，平均解决率为47%。该数据集主要用于评估大型语言模型在高级推理任务中的表现，特别是在解决复杂犯罪问题方面的能力。

The True Detective dataset was developed by the Institute of Computer Science at the University of Tartu. It consists of 191 detective puzzles with an average word count of 1200 words, sourced from the "5 Minute Mystery" platform. Each puzzle features 4 to 5 answer options, and is designed to assess advanced reasoning abilities through complex clues and observational skills. The dataset was created using puzzles written by both professional and aspiring writers; each puzzle has been attempted an average of 2,000 times, with an average solve rate of 47%. This dataset is primarily utilized to evaluate the performance of large language models (LLMs) on advanced reasoning tasks, specifically their capacity to resolve complex criminal cases.

提供机构：

塔尔图大学计算机科学研究所

创建时间：

2022-12-20

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估大型语言模型的深层推理能力已成为一项关键挑战。True Detective数据集的构建源于对现有基准测试局限性的反思，其核心在于模拟侦探小说中的溯因推理过程。该数据集从“5 Minute Mystery”在线平台精心筛选了191个长篇神秘叙事，每个故事平均约1200词，并附带由原作者撰写的完整解答链。这些叙事均包含4至5个选项的多选题，平台历时15年积累了约2000次人类解题记录，为数据可靠性提供了坚实保障。构建过程中，研究者严格保留了故事的原始结构与版权信息，确保了数据集的学术规范性与伦理合规性。

使用方法

使用该数据集时，研究者通常采用三种渐进式评估框架。基础方法直接将谜题文本与选项输入模型获取答案；进阶方法引入思维链提示，要求模型生成推理步骤后再作答；高级方法则将黄金思维链作为附加上下文，用以检验模型在理想线索下的最终推断能力。评估需严格遵循零样本设置，以准确反映模型的本质推理水平。数据集支持对叙事长度、人类解题率与模型表现的相关性分析，为理解语言模型在复杂叙事环境中的认知边界提供了多维度的研究切入点。

背景与挑战

背景概述

在自然语言处理领域，随着大型语言模型在零样本推理任务中展现出卓越性能，学术界对构建更具挑战性的基准测试以评估模型深层推理能力的需求日益迫切。在此背景下，塔尔图大学的研究团队于2023年推出了True Detective数据集，该数据集源自“5分钟神秘”平台，包含191篇平均长度约1200词的侦探谜题叙事。该数据集的核心研究目标在于检验模型在复杂情境下进行溯因推理的能力——即通过有限线索构建最合理解释的认知过程。相较于早期基于短文本的常识推理基准，True Detective通过模拟真实侦探案件中多层次、长篇幅的叙事结构，为衡量语言模型的深层逻辑分析能力设立了新的标准，对推动人工智能在复杂推理领域的发展具有重要参考价值。

当前挑战

True Detective数据集所针对的溯因推理任务本身即蕴含多重挑战：模型需从长达千词的叙事中提取分散线索，构建连贯假设，并排除干扰信息以锁定唯一解，这一过程要求兼具文本理解、逻辑链构建与常识融合能力。在数据集构建层面，挑战主要体现在叙事复杂性控制与质量保障：谜题需平衡文学性与逻辑严谨性，确保线索隐藏深度既超越表面语义关联，又符合人类推理逻辑；同时，平台收集的原始数据需经过标准化处理，统一答案选项数量与叙事结构，并保留作者提供的“黄金思维链”作为推理过程基准，以支撑后续对模型分步推理能力的细粒度评估。

常用场景

经典使用场景

在自然语言处理领域，True Detective数据集作为一项深度溯因推理基准，其经典使用场景聚焦于评估大型语言模型在复杂叙事环境下的逻辑推断能力。该数据集通过构建平均长度约1200词的侦探谜题叙事，要求模型从多角色、长篇幅的文本中整合线索，识别矛盾，并最终推断出罪犯身份。这一场景模拟了人类侦探在真实案件中的思维过程，为研究者提供了检验模型是否具备高级抽象思维与因果链构建能力的标准化测试平台。

解决学术问题

True Detective数据集主要解决了自然语言推理研究中溯因推理能力评估的空白问题。传统基准如ROCStories或SWAG多侧重于短文本的常识推理或序列预测，而该数据集通过引入结构化的长叙事谜题，迫使模型必须进行深层次的证据整合与假设检验。其意义在于揭示了当前大型语言模型在复杂逻辑推断任务上的局限性，例如GPT-4仅达到38%的准确率，远低于人类顶尖解谜者的80%水平，从而推动了针对模型推理机制可解释性、长文本理解与多步因果推断等核心学术问题的深入探索。

实际应用

在实际应用层面，True Detective数据集为智能教育、交互式叙事系统及司法辅助工具的开发提供了关键参考。例如，在教育培训中，该数据集的谜题结构可用于设计培养学生批判性思维与逻辑推理能力的教学工具；在司法领域，其溯因推理框架可辅助构建案件证据分析系统，帮助梳理复杂线索链。此外，该数据集所揭示的模型在长文本推理中的薄弱环节，也为对话系统、智能客服等需要深层语境理解的应用场景提供了改进方向。

数据集最近研究