MuSR

Hugging Face2025-12-10 更新2025-12-11 收录

下载链接：

https://huggingface.co/datasets/OpenEvals/MuSR

下载链接

链接失效反馈

官方服务：

资源简介：

MuSR数据集旨在测试多步软推理的思维链极限。数据集包含叙述、问题、选择、答案索引、答案选项和选项。它分为三个类别：谋杀之谜、物体放置和团队分配，每个类别都有特定的字节数和示例数。该数据集使用ChatGPT创建，专注于基于常识的多步推理。

创建时间：

2025-12-02

原始信息汇总

MuSR 数据集概述

数据集基本信息

数据集名称：MuSR
原始地址：https://huggingface.co/datasets/TAUR-Lab/MuSR
项目网站：https://zayne-sprague.github.io/MuSR/
论文地址：https://arxiv.org/abs/2310.16049
GitHub 仓库：https://github.com/Zayne-sprague/MuSR
相关会议：ICLR 2024（亮点展示）

数据集描述

MuSR 是一个用于测试思维链在多步软推理中极限的数据集。它通过 ChatGPT 创建了需要利用常识进行多步推理的谋杀之谜。

数据集结构

特征

narrative：叙述文本，数据类型为字符串。
question：问题文本，数据类型为字符串。
choices：选项列表，数据类型为字符串列表。
answer_index：答案索引，数据类型为 int64。
answer_choice：答案选项文本，数据类型为字符串。
options：选项列表，数据类型为字符串列表。

数据子集

数据集包含三个子集：

murder_mysteries
- 样本数量：250
- 数据大小：1,398,173 字节
object_placements
- 样本数量：256
- 数据大小：1,322,471 字节
team_allocation
- 样本数量：250
- 数据大小：920,698 字节

数据集统计

总下载大小：1,557,368 字节
总数据集大小：3,641,342 字节

配置信息

配置名称：default
数据文件路径：
- murder_mysteries 子集：data/murder_mysteries-*
- object_placements 子集：data/object_placements-*
- team_allocation 子集：data/team_allocation-*

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多步推理能力的评估对模型智能提出了更高要求。MuSR数据集通过利用ChatGPT生成复杂的叙事场景，构建了包含谋杀谜案、物品放置和团队分配三个子任务的集合。每个样本均由一段叙述文本、一个需要多步推理的问题、多个选项及正确答案组成，确保了数据在逻辑链条上的严谨性与多样性。这一构建过程融合了常识推理与创造性叙事，为研究社区提供了高质量的评估基准。

使用方法

使用MuSR数据集时，研究人员可将其应用于评估大型语言模型在多步推理任务上的表现。典型流程包括加载数据分割、解析叙事与问题，并设计模型生成推理链或直接预测答案。数据集支持标准评估指标如准确率，同时鼓励结合思维链方法以探索模型内部推理过程。通过项目网站与开源代码，用户可复现数据生成或扩展新任务，推动推理研究的深入发展。

背景与挑战

背景概述

在人工智能推理领域，多步骤软推理能力是衡量模型认知深度的关键指标。MuSR数据集由TAUR实验室的研究团队于2023年创建，旨在通过构建包含谋杀谜案、物体放置和团队分配等复杂情境的叙事，系统性地评估模型在常识引导下的链式思维表现。该数据集在ICLR 2024会议上作为亮点报告呈现，其核心研究问题聚焦于探索大语言模型在需要多步逻辑推断与日常知识融合的软性推理任务中的极限，为推进可解释人工智能与复杂问题求解研究提供了重要的基准资源。

当前挑战

MuSR数据集所针对的领域挑战在于，现有模型往往在需要结合常识进行多步骤软推理的任务中表现不佳，例如在开放式叙事中推断隐含因果关系或分配约束性资源。构建过程中的主要挑战包括如何利用ChatGPT等生成工具高效创建高质量、多样化的推理叙事，同时确保每个问题具有明确的逻辑步骤与答案验证机制，并避免生成内容的偏见或逻辑不一致性，从而保证数据集的可靠性与评估有效性。

常用场景

经典使用场景

在自然语言处理领域，MuSR数据集为评估模型的多步软推理能力提供了基准测试平台。该数据集包含谋杀谜案、物体放置和团队分配三个子集，每个实例均以叙事形式呈现，并附有选择题，要求模型基于常识进行链式推理以得出正确答案。这一设计模拟了人类在复杂情境下的逻辑思维过程，使得MuSR成为检验模型是否具备深入理解与连贯推理能力的经典工具。

解决学术问题

MuSR数据集主要针对当前大型语言模型在复杂多步推理任务上的局限性，解决了模型难以整合常识知识进行连贯逻辑推演的问题。通过提供需要多步软推理的叙事性谜题，该数据集推动了学术界对模型推理深度与准确性的研究，促进了链式思维（Chain-of-Thought）方法的优化与创新，为提升模型在开放域推理任务中的性能提供了关键数据支撑。

实际应用

在实际应用中，MuSR数据集可服务于智能对话系统、教育辅助工具及决策支持系统的开发。例如，在构建能够解答复杂谜题或提供逻辑建议的AI助手时，该数据集可用于训练模型进行多步骤推理，增强其在实际场景中的问题解决能力。此外，它也为自动化故事生成、游戏AI设计等领域提供了测试模型推理连贯性的实用基准。

数据集最近研究