TOMCHALLENGES
收藏arXiv2023-10-24 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2305.15068v2
下载链接
链接失效反馈官方服务:
资源简介:
TOMCHALLENGES数据集由认知、大脑与语言巴斯克中心创建,旨在通过多样化的任务全面评估大型语言模型的心智理论能力。该数据集基于Sally-Anne和Smarties测试,包含30个变体,每个变体涉及6种不同类型的问题,用以考察模型对现实、信念、第一和第二阶信念的理解。数据集的创建过程遵循心理学和语言学的严格评估标准,确保其有效性和可靠性。应用领域主要集中在人工智能的心智理论评估,特别是解决大型语言模型在心智理论任务上的表现和局限性。
提供机构:
认知、大脑与语言巴斯克中心
创建时间:
2023-05-24



