OpenToM

github2024-02-25 更新2024-05-31 收录

下载链接：

https://github.com/seacowx/OpenToM

下载链接

链接失效反馈

官方服务：

资源简介：

OpenToM is a new benchmark for assessing LLMs' Neural Theory-of-Mind (N-ToM) with the following key features: (1) longer and clearer narrative stories (2) characters with explicit personality traits (3) actions that are triggered by character intentions (4) questions designed to challenge LLMs' capabilities of modeling characters' mental states of both the physical and psychological world.

OpenToM是一款用于评估大语言模型（Large Language Models，LLMs）神经心理理论（Neural Theory-of-Mind，N-ToM）能力的全新基准测试集，其核心特性如下：（1）叙事性更强、逻辑更清晰的故事文本；（2）具备明确人格特质的角色；（3）由角色意图触发的行为动作；（4）旨在挑战大语言模型对角色在物理世界与心理世界中的心理状态进行建模能力的问题设计。

创建时间：

2024-02-08

原始信息汇总

数据集概述

数据集名称: OpenToM

数据集描述: OpenToM是一个用于评估大型语言模型（LLMs）神经理论心理（N-ToM）能力的新基准。该数据集包含696个叙事故事，其中596个为正常长度（平均字数：194.3字），100个为长叙事（平均字数：491.6字）。每个叙事后跟随23个ToM问题，总计16008个问题。

数据集特点:

叙事内容: 包含更长且更清晰的叙事故事，角色具有明确的个性特征，行动由角色意图触发。
问题类型: 设计了多种问题类型，包括位置、多跳和态度问题，以挑战LLMs对角色心理状态的理解能力。

数据集结构:

opentom.json: 包含来自596个正常长度故事的13,708个问题。
opentom_long.json: 包含来自100个长故事的2,300个问题。
opentom_data 文件夹: 包含各种类型的问题数据，如位置、多跳和态度问题，分为第一阶和第二阶问题。

数据集使用: 该数据集用于基准测试LLMs的性能，不应用于训练或微调。

数据集生成过程: 数据集的生成过程包括使用LLMs生成叙事故事，并经过人工修订。

数据集许可证: 创意共享非商业性4.0国际公共许可证。

数据集详细信息

数据集内容:

叙事故事: 696个，分为正常长度和长叙事。
问题数量: 总计16008个，每个叙事后跟随23个问题。

问题类型:

位置问题: 分为粗粒度和细粒度，询问角色对实体位置的信念。
多跳问题: 基于位置问题，要求额外的推理跳跃，涉及实体的满度和可访问性。
态度问题: 测试LLMs理解角色对事件态度的能力。

评估指标: 推荐使用宏平均F1分数来评估LLMs的性能，因为标签分布不均匀。

数据集创建和评估

数据集创建: 使用LLMs生成叙事故事，并进行人工修订。

评估代码: 提供用于运行实验和评估的代码，包括run_baseline.py和evaluate.py脚本，用于评估不同模型和问题类型。

数据集联系方式: 如需咨询，请联系hainiu.xu@kcl.ac.uk。

搜集汇总

数据集介绍

构建方式

OpenToM数据集的构建过程融合了精心设计的叙事生成与问题构建。数据集包含696个叙事，其中596个为常规长度，100个为长篇叙事。每个叙事后附有23个理论心智（ToM）问题，总计16008个问题。叙事生成过程中，角色被赋予明确的性格特征，并通过其意图触发行动。问题设计旨在挑战大语言模型（LLMs）对角色心理状态的理解能力，涵盖物理和心理世界的多个维度。数据生成流程结合了自动化与人工修订，确保叙事的多样性与问题的复杂性。

特点

OpenToM数据集以其独特的问题类型和叙事结构脱颖而出。问题分为三类：位置（Location）、多跳推理（Multihop）和态度（Attitude），分别测试模型对角色信念、推理能力和情感态度的理解。位置问题进一步细分为粗粒度与细粒度，多跳推理问题则引入了社会常识，态度问题则关注角色对事件的心理反应。所有问题均为二元或三元分类任务，推荐使用宏平均F1分数进行评估，以应对标签分布不均的情况。数据集还提供了详细的元数据，包括角色偏好、性格特征和情感状态，为模型评估提供了丰富的信息支持。

使用方法

OpenToM数据集主要用于评估大语言模型的理论心智推理能力，而非用于训练或微调。用户可通过`run_baseline.py`脚本运行实验，指定模型类型、问题类型和生成配置等参数。实验支持多种提示策略，如链式思维（CoT）、模拟心智（SimulatedToM）和自问自答（Self Ask）。评估结果将自动保存至指定路径，用户可通过`evaluate.py`脚本进一步分析模型表现。数据集的使用需遵循Creative Commons Attribution-NonCommercial 4.0国际许可协议，确保其仅用于非商业研究目的。

背景与挑战

背景概述

OpenToM数据集由KclNLP团队于2024年推出，旨在评估大型语言模型（LLMs）在神经心智理论（N-ToM）方面的表现。该数据集包含696个叙事故事，其中596个为常规长度，100个为长篇叙事，每个故事后附有23个心智理论问题，总计16008个问题。OpenToM通过设计更长的叙事、明确的角色性格特征以及由角色意图触发的行动，挑战LLMs在建模角色心理状态方面的能力。该数据集的核心研究问题在于测试LLMs对角色物理和心理世界的理解能力，特别是在位置、多跳推理和态度等问题的处理上。OpenToM的推出为心智理论研究提供了新的基准，推动了LLMs在复杂推理任务中的进一步发展。

当前挑战

OpenToM数据集在构建和应用过程中面临多重挑战。首先，该数据集旨在解决LLMs在心智理论推理中的局限性，特别是在处理多跳推理和角色态度等复杂问题时，LLMs的表现往往不尽如人意。其次，数据集的构建过程中，叙事故事的生成依赖于LLMs，尽管部分故事经过人工修订，但仍可能存在偏见和词汇多样性不足的问题。此外，OpenToM问题的设计需要精确捕捉角色的心理状态和意图，这对数据标注和验证提出了较高要求。最后，由于数据集禁止用于模型训练，如何在不影响其基准价值的前提下进行有效评估，也成为实际应用中的一大挑战。

常用场景

经典使用场景

OpenToM数据集主要用于评估大型语言模型（LLMs）在神经心智理论（N-ToM）方面的表现。通过提供包含明确人物性格特征和意图驱动的叙事情节，OpenToM设计了多种类型的问题，如位置、多跳推理和态度问题，以挑战模型在物理和心理世界中对人物心理状态的建模能力。

衍生相关工作

OpenToM数据集的发布推动了相关领域的研究进展，衍生出多项经典工作。例如，基于OpenToM的评估结果，研究者们提出了多种改进LLMs心智理论能力的方法，如模拟心智理论（SimulatedToM）和自我提问（Self Ask）等提示策略。这些工作进一步拓展了LLMs在复杂推理任务中的应用前景。

数据集最近研究