ToM QA Dataset

github2023-12-12 更新2024-05-31 收录

下载链接：

https://github.com/kayburns/tom-qa-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在评估问答模型关于其推理关于信念的能力。它从发展心理学中的理论心灵实验中获得灵感，如Sally-Anne任务，这些实验旨在测试儿童是否能理解他人的信念，并推理关于世界的不一致状态。数据集包含三种任务类型和四种问题类型，共创建12种情景。每个分割包含每种任务-问题组合的1000个示例，总计每个分割12000个示例。数据集有四个版本：easy with noise, easy without noise, hard with noise, 和 hard without noise。

This dataset is designed to evaluate the reasoning capabilities of question-answering models regarding beliefs. It draws inspiration from developmental psychology experiments, such as the Sally-Anne task, which are intended to test whether children can understand others' beliefs and reason about inconsistent states of the world. The dataset includes three types of tasks and four types of questions, creating a total of 12 scenarios. Each split contains 1,000 examples of each task-question combination, totaling 12,000 examples per split. The dataset comes in four versions: easy with noise, easy without noise, hard with noise, and hard without noise.

创建时间：

2018-08-28

原始信息汇总

ToM QA Dataset 概述

数据集目的

该数据集旨在评估问答模型对于理解他人信念及推理不一致世界状态的能力。灵感来源于发展心理学中的理论思维实验，如Sally-Anne任务。

数据集详情

任务与问题类型：数据集包含3种任务类型和4种问题类型，共形成12种任务-问题组合。
问题类型：
- 第一级信念：Sally将在哪里寻找牛奶？
- 第二级信念：Anne认为Sally在哪里寻找牛奶？
- 记忆：开始时牛奶在哪里？
- 现实：牛奶实际上在哪里？
数据集版本：共有四个版本，包括easy with noise、easy without noise、hard with noise和hard without noise。噪声版本在测试和验证集中随机包含10%的干扰句。
数据格式：类似于bAbi任务，但未使用支持句标签。每个问题末尾添加数字1以保持格式一致。
观察者信息：每句后附带一系列ID，指示故事中的哪些代理观察了该动作。ID在故事内保持一致，但跨故事不同。

数据集结构

数据量：每个分割包含每种任务-问题组合的1000个示例，总计每个分割12,000个示例。
文件命名规则：测试和验证文件路径格式为{tom or tom_easy}/world_large_nex_1000_{noise: 0 or 10}/{task type}_{question type}_{split}_test。训练文件名为qa21_task_AB_train.txt。

搜集汇总

数据集介绍

构建方式

ToM QA数据集的构建灵感源自发展心理学中的心智理论实验，如Sally-Anne任务，旨在评估问答模型在推理他人信念方面的能力。数据集通过3种任务类型和4种问题类型的组合，生成了12种不同的场景。每个场景包含1000个示例，总计12000个示例。数据集的生成代码使用Python3编写，依赖NumPy库，并通过运行`generate_tom.sh`脚本重新生成整个数据集。数据格式与bAbi任务相似，但未使用支持句子，而是在每个问题末尾添加了数字1以保持格式一致。

特点

ToM QA数据集的特点在于其多样化的任务和问题类型，涵盖了从一阶信念到二阶信念的推理，以及记忆和现实问题的验证。数据集分为四个版本：简单带噪声、简单无噪声、困难带噪声和困难无噪声，其中噪声版本在测试和验证集中随机添加了10%的干扰句子。每个句子后附有参与者的ID，指示哪些代理观察到了该动作，ID在故事内保持一致，但在不同故事间不同。这种设计使得数据集能够全面评估模型在不同情境下的推理能力。

使用方法

使用ToM QA数据集时，首先需要运行`generate_tom.sh`脚本生成数据，或直接使用数据文件夹中提供的现成数据。数据集支持记忆网络和多观察者模型的训练，未来还将支持实体和关系网络。训练过程中，模型可以访问每个句子后的参与者ID信息，以了解哪些代理观察到了特定动作。通过这种方式，模型能够更准确地推理出他人的信念，并验证其对世界状态的理解是否正确。

背景与挑战

背景概述

ToM QA数据集由Kay Burns等研究人员于2018年提出，旨在评估问答模型在推理他人信念方面的能力。该数据集的设计灵感来源于发展心理学中的‘心智理论’实验，如著名的Sally-Anne任务。通过构建包含不同任务类型和问题类型的场景，数据集能够测试模型是否能够理解他人的信念以及推理与现实不一致的状态。该数据集在自然语言处理领域，尤其是问答系统和心智理论研究方面，具有重要的影响力，推动了模型在复杂推理任务中的表现提升。

当前挑战

ToM QA数据集的核心挑战在于如何设计能够有效评估模型心智理论能力的任务和问题。具体而言，数据集需要解决模型在推理一阶信念和二阶信念时的准确性，同时确保模型对现实和记忆问题的回答并非偶然。此外，数据集的构建过程中还面临如何平衡任务复杂性和数据多样性的问题，例如在‘简单’和‘困难’版本中引入噪声以模拟真实场景。这些挑战不仅要求数据集设计者具备深厚的心理学背景，还需要在数据生成过程中确保逻辑的一致性和任务的多样性。

常用场景

经典使用场景

ToM QA数据集主要用于评估问答模型在处理和理解他人信念方面的能力。通过模拟心理学中的‘理论心智’实验，如Sally-Anne任务，该数据集能够测试模型是否能够理解他人的信念，并推理出与现实状态不一致的情境。这种能力对于开发能够进行复杂社会交互的人工智能系统至关重要。

实际应用

在实际应用中，ToM QA数据集可以用于开发和测试那些需要理解人类心理状态的AI系统，如虚拟助手、客户服务机器人和教育软件。这些系统通过理解和推理用户的信念和意图，能够提供更加个性化和有效的交互体验。此外，该数据集还可以用于心理学研究，帮助科学家更好地理解人类心智的工作原理。

衍生相关工作

基于ToM QA数据集，研究者们已经开发了多种先进的模型，如记忆网络和多观察者模型。这些模型在理解和推理复杂社会情境方面取得了显著进展。此外，该数据集还激发了更多关于信念推理和心智理论的研究，推动了人工智能在认知科学领域的深入应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集