subCat-human
收藏SubCat: 意大利语言中人类心智与LLMs下属类别数据集
数据集概述
- 名称: SubCat
- 用途: 研究意大利母语者对常见物体类别生成示例的方式
- 语言: 意大利语
- 许可证: CC BY 4.0
- 论文: How Humans and LLMs Organize Conceptual Knowledge: Exploring Subordinate Categories in Italian
数据集创建
- 刺激材料: 187个基本级别具体类别(如狗、桌子),分为12个上位语义类别(如动物、家具)
- 参与者: 365名意大利母语者
- 任务: 为每个概念生成尽可能多的示例
- 最终数据: 24,659个经过清理和标准化的示例
数据处理
- 步骤: 纠正常见拼写错误和打字错误
- 目的: 确保最终数据集的准确性和一致性
数据集结构
- 列名:
category: 上位类别concept: 基本级别类别exemplar: 生成的下属级别示例/概念exemplar_string: 经过清理的示例版本availability: 示例作为其关联类别成员的易生成性指标count: 示例在参与者中的出现次数min_rank: 示例出现的最小排名max_rank: 示例出现的最高排名mean_rank: 示例出现的平均排名first_occur: 示例首次出现的比例dominance: 生成该示例的参与者比例abs_freq_corpus: 仅适用于LLM生成的示例,在意大利语料库ItTenTen中的出现次数
引用信息
bibtex @inproceedings{pedrotti-etal-2025-humans, title = "How Humans and {LLM}s Organize Conceptual Knowledge: Exploring Subordinate Categories in {I}talian", author = "Pedrotti, Andrea and Rambelli, Giulia and Villani, Caterina and Bolognesi, Marianna", editor = "Che, Wanxiang and Nabende, Joyce and Shutova, Ekaterina and Pilehvar, Mohammad Taher", booktitle = "Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2025", address = "Vienna, Austria", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2025.acl-long.224/", doi = "10.18653/v1/2025.acl-long.224", pages = "4464--4482", ISBN = "979-8-89176-251-0", }




