Hi-ToM Dataset

github2023-12-14 更新2024-05-31 收录

下载链接：

https://github.com/ying-hui-he/Hi-ToM_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于论文《Hi-ToM: 大型语言模型中高阶心理理论推理评估基准》的数据集。数据集包含故事-问题对及其对应答案，涵盖了不同类型的故事交流、提示风格和故事长度。

This is a dataset for the paper 'Hi-ToM: A Benchmark for Higher-Order Theory of Mind Reasoning in Large Language Models'. The dataset includes story-question pairs along with their corresponding answers, covering various types of story interactions, prompt styles, and story lengths.

创建时间：

2023-06-06

原始信息汇总

Hi-ToM Dataset 概述

数据集内容

Hi-ToM_data 文件夹：包含 ToMh 数据，由故事-问题对及其对应答案组成。
- 子文件夹结构：
  - 通信情况：Tell 表示故事中包含代理间的通信，No_Tell 表示不包含。
  - 提示风格：MC 对应论文中的 Vanilla Prompting (VP)，CoT 对应 Chain-of-Thought Prompting (CoTP)。
  - 故事长度：length_n 表示故事的章节数，范围从 1 到 3。
  - 样本编号：sample_n 表示不同样本故事的编号。
  - ToM 问题顺序：order_n 表示问题的 ToM 顺序，范围从 0 到 4。
Hi-ToM_prompt 文件夹：包含可直接输入 API 的提示文件。
- 内容特点：与 Hi-ToM_data 相似，但不包含答案。

数据生成

脚本：使用 generate_tomh.sh 脚本可以生成新的数据和提示。

搜集汇总

数据集介绍

构建方式

Hi-ToM数据集的构建基于高阶心理理论（Theory of Mind, ToM）的评估需求，旨在测试大型语言模型在复杂社交情境中的推理能力。数据集通过设计包含不同章节长度的故事-问题对，并结合是否包含代理间通信（Tell/No_Tell）以及提示风格（MC/CoT）等维度，生成了多样化的测试场景。每个故事的问题均标注了心理理论的阶数（从0到4），以覆盖不同层次的推理复杂度。

特点

Hi-ToM数据集的特点在于其多层次的结构设计，能够全面评估模型在高阶心理理论任务中的表现。数据集不仅区分了故事的长度和复杂性，还通过是否包含代理间通信以及不同的提示风格（如链式思维提示）来增强任务的多样性。此外，每个问题的心理理论阶数明确标注，为研究者提供了清晰的评估标准，使其能够针对不同阶数的推理能力进行深入分析。

使用方法

使用Hi-ToM数据集时，研究者可通过`Hi-ToM_data`文件夹中的故事-问题对进行模型测试，并根据提示风格（MC或CoT）选择相应的输入方式。`Hi-ToM_prompt`文件夹提供了可直接输入API的提示文件，便于快速部署实验。此外，用户可通过运行`generate_tomh.sh`脚本生成新的数据和提示，以扩展数据集的适用范围或定制特定研究需求。

背景与挑战

背景概述

Hi-ToM数据集是为评估大型语言模型中的高阶心理理论（Theory of Mind, ToM）推理能力而创建的基准数据集。该数据集由研究人员在2023年提出，旨在解决当前自然语言处理领域中关于模型是否能够理解和推理他人心理状态的挑战。Hi-ToM数据集包含故事-问题对及其对应的答案，涵盖了不同长度的故事和不同阶数的心理理论问题。该数据集的创建标志着在理解和评估语言模型的心理理论能力方面迈出了重要一步，为相关领域的研究提供了新的工具和方向。

当前挑战

Hi-ToM数据集在解决高阶心理理论推理问题时面临多重挑战。首先，心理理论本身涉及复杂的认知过程，要求模型能够准确推断他人的信念、意图和情感，这对模型的推理能力提出了极高的要求。其次，数据集的构建过程中需要设计具有不同阶数心理理论问题的故事，确保问题的多样性和复杂性，这对数据生成和标注提出了技术上的挑战。此外，如何通过提示工程（如Chain-of-Thought Prompting）有效引导模型进行高阶推理，也是数据集应用中的一大难点。这些挑战不仅考验了数据集的构建质量，也对未来模型的能力评估提出了更高的标准。

常用场景

经典使用场景

Hi-ToM数据集主要用于评估大型语言模型在高级心智理论（Theory of Mind, ToM）推理任务中的表现。通过提供一系列故事-问题对及其对应的答案，该数据集能够模拟复杂的社交情境，测试模型是否能够理解并推断出不同角色的心理状态和意图。这一场景特别适用于研究模型在多层次心智推理中的能力，尤其是在涉及多个角色和复杂交互的情境下。

衍生相关工作

Hi-ToM数据集的发布催生了一系列相关研究，特别是在大型语言模型的心智理论推理能力评估方面。许多研究者基于该数据集提出了新的评估方法和模型改进策略，进一步推动了心智理论在人工智能领域的发展。此外，该数据集还激发了跨学科的研究兴趣，促进了心理学、认知科学与人工智能的交叉融合，为未来的智能系统设计提供了新的思路。

数据集最近研究