意大利心理语言学数据集

Name: 意大利心理语言学数据集
Creator: 意大利博洛尼亚大学
Published: 2025-05-27 23:04:52
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

http://arxiv.org/abs/2505.21301v1

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由意大利博洛尼亚大学的研究团队创建，包含187个基本水平的具体词汇的人类生成例证。该数据集旨在研究人类和大型语言模型（LLMs）如何组织和理解概念，特别是在下属类别层面。数据集大小为24,659个例证，通过在Prolific平台上招募365名意大利母语者，为每个概念生成尽可能多的例证。数据集的创建过程包括数据收集、处理和后处理。该数据集的应用领域包括心理学、语言学和人工智能，旨在解决人类概念组织和LLMs模型性能的问题。

This dataset was created by a research team from the University of Bologna, Italy. It contains human-generated exemplars for 187 concrete basic-level vocabulary terms. This dataset is designed to investigate how humans and Large Language Models (LLMs) organize and comprehend concepts, particularly at the subordinate category level. The dataset comprises a total of 24,659 exemplars, which were generated by recruiting 365 Italian native speakers via the Prolific platform to create as many exemplars as possible for each concept. The dataset creation process includes data collection, preprocessing, and post-processing. Its application fields cover psychology, linguistics, and artificial intelligence, aiming to address questions related to human concept organization and LLM performance.

提供机构：

意大利博洛尼亚大学

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

意大利心理语言学数据集的构建基于187个具体基础类别词汇，通过365名意大利母语者在Prolific平台上进行的范例生成任务。每位参与者被呈现15-16个类别，并被要求尽可能多地列举每个概念的下属类别范例。经过拼写错误和错别字的后期处理，最终数据集包含24,659个范例。通过计算范例的主导性、平均排名顺序、首次出现值和可用性等指标，研究者深入分析了概念与范例之间的关系。

特点

该数据集的特点在于其专注于下属类别的范例生成，填补了以往研究多集中于基础和超级ordinate类别的空白。数据集涵盖了12个超级ordinate语义类别，包括动物、身体部位、衣物等，其中食物类别生成的范例最多（270个），植物类别最少（77个）。数据集通过量化范例的可用性和典型性，为研究人类概念组织的层次结构提供了丰富资源。

使用方法

该数据集的使用方法包括范例生成、类别归纳和典型性判断三个关键任务。研究者可通过分析人类生成的范例与大型语言模型（LLMs）生成的范例之间的对齐程度，评估模型在概念组织方面的表现。此外，数据集还可用于心理学和语言学研究中，探究下属类别在语义记忆中的表征方式及其与语言经验的关系。

背景与挑战

背景概述

意大利心理语言学数据集由Andrea Pedrotti等人于2025年创建，旨在探索人类与大型语言模型（LLMs）在从属类别知识组织上的差异。该数据集包含187个具体基础类别的人类生成示例，重点关注从属级别（如“金毛犬”作为“狗”的从属类别）而非传统研究的基础级别。研究团队来自意大利国家研究委员会（ISTI-CNR）和博洛尼亚大学，通过分析人类与LLMs在示例生成、类别归纳和典型性判断三个任务中的表现，揭示了语言模型在语义知识组织上的局限性。该数据集填补了意大利语从属类别研究的空白，为认知心理学和人工智能领域的语义结构研究提供了重要资源。

当前挑战

该数据集面临两大核心挑战：在领域问题层面，从属类别研究需要解决语义细粒度划分的复杂性，例如同一实体在不同分类层级（如“动物-狗-金毛犬”）中的表征差异，这对传统基于基础类别的研究范式提出了扩展要求；在构建过程中，数据收集面临人类认知变异性带来的困难，例如不同参与者对从属示例的生成存在显著个体差异，且部分专业领域词汇（如植物学术语）的可及性较低。此外，LLMs生成的示例与人类数据对齐度不足（最高仅24%），模型倾向于产生语法正确但语义荒谬的幻觉示例（如“橡树叶天竺葵”），这反映了纯语言训练模型在细粒度语义 grounding 上的根本性缺陷。

常用场景

经典使用场景

意大利心理语言学数据集在认知科学和语言学研究中具有重要价值，尤其在探讨人类与大型语言模型（LLMs）在概念组织方面的差异时表现突出。该数据集通过收集人类生成的187个具体词汇的从属类别示例，为研究概念层次结构提供了丰富素材。在经典使用场景中，研究者利用该数据集进行三项关键任务：示例生成、类别归纳和典型性判断，从而系统比较人类与LLMs在从属概念组织上的异同。

衍生相关工作

该数据集已衍生出多项创新研究，包括Misra等（2023）开发的COMPS框架测试LLMs属性知识、Samadarshi等（2024）基于概念关联的游戏化评估系统，以及Vemuri等（2024）构建的多模态典型性预测模型。在跨语言研究方面，该数据集促使Banks和Connell（2023）建立了英语平行语料库，推动了概念组织的文化差异性研究。

数据集最近研究