SimpleToM

Name: SimpleToM
Creator: Allen Institute for AI
Published: 2024-10-22 08:07:41
License: 暂无描述

Hugging Face2024-10-22 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/allenai/SimpleToM

下载链接

链接失效反馈

官方服务：

资源简介：

SimpleToM数据集包含了一系列故事及其相关问题，这些问题被分为三个类别：mental-state-qa（关于角色对信息的认知）、behavior-qa（关于角色未来可能的行为）和judgment-qa（关于角色行为的合理性）。故事以多选题的形式呈现，且每个故事都有详细的元数据，包括原始故事提示、涉及的实体、严重性评级以及预测的危害性和不道德性评级。

提供机构：

Allen Institute for AI

创建时间：

2024-10-11

原始信息汇总

SimpleToM 数据集概述

基本信息

语言: 英语
许可证: odc-by
多语言性: 单语种
数据规模: 1K<n<10K

配置

mental-state-qa:
- 数据文件: mental-state-qa/test.jsonl
- 分割: test
behavior-qa:
- 数据文件: behavior-qa/test.jsonl
- 分割: test
judgment-qa:
- 数据文件: judgment-qa/test.jsonl
- 分割: test
story-data:
- 数据文件: story-data/test.jsonl
- 分割: test

问题集

mental-state-qa: 关于故事中角色信息意识的问答
behavior-qa: 关于故事中角色未来可能行为的问答
judgment-qa: 关于角色行为合理性的问答

故事数据

story-data/test.jsonl: 包含每个故事的详细元数据，包括原始故事提示、涉及的实体、严重性评级以及预测的危害性和不道德性评级。

搜集汇总

数据集介绍

构建方式

SimpleToM数据集的构建基于对故事中角色心理状态的深入分析，通过生成一系列故事并设计与之相关的问题来评估模型的心理理论（ToM）能力。数据集中的故事由先进的生成模型（如Claude-3-5-Sonnet）生成，并经过人工标注和评估，确保其内容的多样性和复杂性。每个故事均配备了详细的元数据，包括角色、严重性评级以及预测的有害性和不道德性评级，从而为研究提供了丰富的背景信息。

特点

SimpleToM数据集的特点在于其专注于心理理论的应用，涵盖了角色信息意识、未来行为预测以及行为合理性判断等多个维度。数据集中的问题采用标准的多项选择形式，便于模型进行评估和比较。此外，数据集还提供了每个故事的详细元数据，包括生成模型、严重性评级以及预测的有害性和不道德性评级，为研究者提供了全面的分析工具。

使用方法

SimpleToM数据集的使用方法主要包括加载数据集文件并解析其中的故事和问题。研究者可以通过读取`story-data/test.jsonl`文件获取故事的详细元数据，并通过`mental-state-qa`、`behavior-qa`和`judgment-qa`等配置文件获取相应的问题集。这些问题集可用于评估模型在心理理论应用方面的表现，研究者可以通过对比模型的回答与正确答案来评估其性能。

背景与挑战

背景概述

SimpleToM数据集由研究人员在2024年提出，旨在探讨大型语言模型（LLMs）在显式心智理论（ToM）推理与隐式ToM应用之间的差距。该数据集包含一系列故事及其相关的问题，涵盖了角色信息意识、未来行为预测以及行为合理性判断等多个维度。通过标准的多项选择题形式，SimpleToM为研究LLMs在复杂社会认知任务中的表现提供了重要工具。该数据集的创建不仅推动了心智理论在人工智能领域的研究，还为评估和提升LLMs的社会认知能力提供了新的视角。

当前挑战

SimpleToM数据集在构建和应用过程中面临多重挑战。首先，心智理论本身涉及复杂的心理状态推理，如何准确设计问题以捕捉LLMs的推理能力是一个关键难题。其次，数据集的构建需要确保故事和问题的多样性与复杂性，以全面评估模型的表现。此外，评估LLMs在隐式ToM应用中的表现需要精确的指标和对比分析，这对数据集的标注和评估方法提出了高要求。最后，如何将SimpleToM的研究成果有效应用于实际场景，进一步提升LLMs的社会认知能力，仍是一个亟待解决的问题。

常用场景

经典使用场景

SimpleToM数据集在心理学和人工智能领域中被广泛用于研究人类心智理论（Theory of Mind, ToM）的模拟与评估。通过提供一系列故事及其相关问题，该数据集能够帮助研究者测试和训练模型在理解角色心理状态、预测行为以及判断行为合理性等方面的能力。这种多层次的问答形式为模型提供了丰富的认知挑战，使其在复杂情境下的推理能力得到充分检验。

衍生相关工作

SimpleToM数据集的发布催生了一系列相关研究，特别是在心智理论与人工智能交叉领域。许多研究者利用该数据集开发了新的评估方法和模型训练策略，进一步提升了模型在复杂情境下的推理能力。此外，该数据集还激发了关于心智理论在自然语言处理中的应用研究，推动了这一领域的技术进步与理论创新。

数据集最近研究