TURNABOUTLLM

Name: TURNABOUTLLM
Creator: 宾夕法尼亚大学和德雷塞尔大学
Published: 2025-05-22 00:22:32
License: 暂无描述

arXiv2025-05-22 更新2025-05-24 收录

下载链接：

https://github.com/zharry29/turnabout_llm

下载链接

链接失效反馈

官方服务：

资源简介：

TURNABOUTLLM是一个用于评估大型语言模型（LLM）演绎推理能力的新颖框架和数据集，它利用侦探游戏《逆转裁判》和《弹丸论破》的互动游戏玩法。该框架要求LLM在长篇叙事语境中识别证词和证据之间的矛盾，这是一个具有挑战性的任务，因为其问题提出了庞大的答案空间和多样化的推理类型。我们使用该数据集评估了十二个最先进的LLM，暗示了流行策略（如广泛的思考和Chain-of-Thought提示）在增强演绎推理方面的局限性。该结果还表明，上下文大小、推理步骤的数量和答案空间的大小对模型性能有不同的影响。总的来说，TURNABOUTLLM在复杂、叙事丰富的环境中为LLM的演绎推理能力提出了重大挑战。

TURNABOUTLLM is a novel framework and dataset for evaluating the deductive reasoning capabilities of large language models (LLMs), which leverages the interactive gameplay of the detective visual novel games "Phoenix Wright: Ace Attorney" and "Danganronpa". This framework requires LLMs to identify contradictions between testimonies and evidence within long-form narrative contexts, a challenging task due to its problem's vast answer space and diverse reasoning types. We evaluated twelve state-of-the-art LLMs using this dataset, and the results reveal the limitations of popular strategies such as extensive thinking and Chain-of-Thought prompting in enhancing deductive reasoning. The findings also demonstrate that context window size, number of reasoning steps, and size of the answer space exert distinct impacts on model performance. Overall, TURNABOUTLLM poses significant challenges to the deductive reasoning capabilities of LLMs in complex, narrative-rich environments.

提供机构：

宾夕法尼亚大学和德雷塞尔大学

创建时间：

2025-05-22

原始信息汇总

Turnabout LLM 数据集概述

数据集简介

目的：评估大型语言模型（LLM）在交互式侦探小说游戏中的演绎推理能力
来源游戏：
- 《逆转裁判》（Ace Attorney）
- 《弹丸论破》（Danganronpa）
数据来源：
- Ace Attorney Wiki的庭审记录
- Danganronpa存档

数据集特点

内容选择：
- 仅包含文本元素，视觉元素通过文字描述呈现
- 仅关注核心推理玩法：
  - 《逆转裁判》：法庭辩论环节
  - 《弹丸论破》：非停止辩论环节
数据处理：
- 对原始游戏内容进行编辑以提高逻辑严谨性
- 包括：
  - 修改措辞
  - 去除模糊矛盾
  - 为逻辑跳跃添加信息
数据结构：
- 每个回合（turn）包含：
  - 证据列表（含描述）
  - 证言列表
  - 可选的故事背景

评估任务

模型任务：找出证据与证言之间的矛盾对
挑战：
- 部分回合需要从故事背景中检索特定信息
- 形成"大海捞针"式的信息检索难题

评估方法

输入格式：
- 证据/真理子弹列表
- 证言列表
- 可选的故事背景
输出要求：
- 识别矛盾的证据-证言对

许可信息

许可证：Creative Commons Attribution-Share Alike License 3.0 (CC BY-SA)
依据：遵循fandom.com的数据源许可

相关资源

数据集详情：参见data/目录下的README
评估说明：参见source/README.md

搜集汇总

数据集介绍

构建方式

TURNABOUTLLM数据集通过精心解析两款备受赞誉的侦探游戏《逆转裁判》和《弹丸论破》的文本内容构建而成。研究团队从游戏Wiki和存档中提取了角色信息、证据描述、证词内容以及完整的游戏对话文本。为确保逻辑严谨性，团队对原始数据进行了多轮修改，包括重新措辞、剔除逻辑松散的回合，并为逻辑跳跃补充必要信息。每个数据点（称为“回合”）包含角色信息、证据列表、证词数组及可选上下文，模型需输出存在矛盾的证词-证据对。所有数据均经过人工标注，包括证据范围、上下文摘要、推理类型及完整推理步骤，总标注工时约100小时。

特点

TURNABOUTLLM以其独特的叙事复杂性和逻辑深度脱颖而出。数据集包含306个回合，平均每个回合涉及12个角色、38项证据和11条证词，上下文长度可达2.5万字符。其核心特点在于：超长叙事语境（部分超过10万字）、超大答案空间（含300个候选答案）、异构推理需求（时空、行为、因果等7类推理）以及完整的符号化逻辑标注。相较于现有推理基准，该数据集首次同时满足自然场景、符号标注、长上下文、大答案空间、多跳推理和异构类型六项需求，为评估大语言模型的演绎推理能力设立了新标准。

使用方法

使用TURNABOUTLLM进行评估时，研究者需从每个游戏回合提取特定字段构建提示。评估协议提供四种提示模板：基础零样本提示（含角色、证据和证词描述）、思维链提示（添加逐步推理示例）、全上下文提示（包含完整案件文本）以及消融提示（仅保留名称信息）。模型需输出矛盾的证词-证据对索引，评估指标包括整体准确率、证据准确率和证词准确率。值得注意的是，数据集未预设固定训练-验证-测试划分，研究者可将《逆转裁判》全集作为评估集，以避免参数调优带来的偏差。对于计算资源有限的情况，建议采用分块检索策略处理长上下文。

背景与挑战

背景概述

TURNABOUTLLM是由宾夕法尼亚大学和德雷克塞尔大学的研究团队于2024年推出的一个创新型数据集，专注于评估大型语言模型（LLMs）在复杂叙事环境中的演绎推理能力。该数据集基于著名的侦探游戏《逆转裁判》和《弹丸论破》的交互式游戏内容构建，旨在通过模拟侦探故事中的矛盾识别任务，测试模型在长文本上下文中的信息检索和逻辑推理能力。TURNABOUTLLM的创建填补了现有推理评测基准在符号逻辑标注、超长上下文和大答案空间方面的空白，为LLMs的推理能力评估提供了更为全面和严格的测试平台。

当前挑战

TURNABOUTLLM面临的挑战主要体现在两个方面：领域问题的复杂性和数据构建的技术难度。在领域问题方面，数据集要求模型在超长叙事文本中识别证词与证据之间的矛盾，这一任务不仅涉及多跳推理，还需要模型具备时空、因果、行为等多种异构推理能力。在数据构建过程中，研究团队需要从视觉小说中提取并纯化文本内容，同时确保逻辑矛盾的严谨性，这涉及到大量的人工标注和验证工作。此外，数据集的版权问题以及文化特定内容的潜在偏见也是构建过程中需要谨慎处理的挑战。

常用场景

经典使用场景

TURNABOUTLLM数据集专为评估大型语言模型（LLMs）在复杂叙事环境中的演绎推理能力而设计。其经典使用场景包括从侦探游戏《逆转裁判》和《弹丸论破》中提取的交互式游戏剧情，要求模型在长篇叙事背景下识别证词与证据之间的矛盾。这种场景不仅测试模型的信息检索能力，还考察其对时间线、空间关系、行为逻辑等多维度推理的综合运用。

解决学术问题

该数据集解决了当前LLMs在复杂推理任务中的评估瓶颈问题。传统推理基准往往缺乏符号化逻辑标注或局限于短文本上下文，而TURNABOUTLLM通过整合超长叙事语境（超过10万词）、大答案空间（300个候选对）及异构推理类型（时空/因果/数值等），为研究多跳推理、上下文依赖推理及符号-叙事混合任务提供了标准化测试平台。其实验结果揭示了思维链提示等传统增强策略在复杂演绎任务中的局限性，推动了可控推理生成方法的研究。

衍生相关工作

该数据集催生了多个延伸研究方向，包括基于推理链标注的模型可解释性分析（如DeepSeek-R1的 exhaustive search 策略研究）、长上下文检索与推理的联合优化（针对非自洽案例的 needle-in-haystack 检索），以及多模态推理扩展（将游戏视觉线索转化为结构化文本）。相关成果被应用于改进ProofWriter的逻辑规则生成，并为FOLIO等符号推理数据集补充了自然语言叙事维度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集