five

Figurative Archive

收藏
arXiv2025-03-01 更新2025-03-06 收录
下载链接:
https://zenodo.org/records/14924804
下载链接
链接失效反馈
官方服务:
资源简介:
Figurative Archive是一个包含997个意大利语隐喻的开放数据库,由意大利帕维亚高级研究大学实验神经语言学和实验语用学实验室(NEPLab)构建。该数据库涵盖了日常和文学隐喻,并在结构上和语义领域上有所不同。数据集的构建基于11项研究,包含了多种隐喻特征,如熟悉度、词频等。该数据集旨在促进隐喻研究,提供了一个网络界面,方便用户灵活和个性化地查询数据。
提供机构:
意大利帕维亚高级研究大学实验神经语言学和实验语用学实验室(NEPLab)
创建时间:
2025-03-01
搜集汇总
数据集介绍
main_image_url
构建方式
Figurative Archive数据集是通过收集来自11个研究的刺激物构建而成的。这些研究涵盖了日常和文学隐喻,结构多样,语义领域广泛。数据集包含了997个意大利语隐喻,并附有评分和基于语料库的度量(从熟悉度到词汇频率)。为了确保数据的一致性和可重复性,原始评分度量被标准化在统一的尺度上,而基于语料库的度量则使用最新的开放语料库资源进行重新计算。此外,还收集了所有项目的新包容性评分,以评估隐喻与当前包容性语言使用建议的符合程度。
特点
Figurative Archive数据集的特点在于其规模相对于之前的数据集有所增加,并包含了一个新的包容性度量,以符合当前对非歧视性语言使用的推荐。此外,数据集通过一个基于网络的界面进行展示,具有灵活和定制的咨询功能。数据集的验证包括熟悉度与其他度量之间的相关性分析。该数据集旨在促进隐喻研究,提供一套易于使用且广泛描述的隐喻,大多数都与字面意思相对应,从而减少实验实施时间。数据集的多样性使其适用于研究隐喻的不同方面。此外,它鼓励隐喻研究中的可重复性,既可以用于原始研究中调查的神经认知效应,也可以作为多个未来研究的共享材料来源。
使用方法
Figurative Archive数据集的使用方法包括访问其基于网络的图形用户界面,该界面目前包括两个主要部分:日常隐喻模块和文学隐喻模块。用户可以通过左侧菜单导航到Wiki、Explore Dataset、Download和References等部分。在Explore Dataset部分,用户可以浏览数据集、查看每个隐喻的评分和基于语料库的度量,并根据感兴趣的变量进行排序和筛选。数据集可以以多种方式可视化,包括密度图、直方图和散点图。用户还可以下载单个研究的数据集,并在Reference部分查看完整的参考文献列表。
背景与挑战
背景概述
在隐喻研究领域,Figurative Archive数据集的创建是为了响应研究隐喻在语言和认知过程中所起作用的需求。该数据集由意大利语中的997个隐喻组成,这些隐喻被收集于11个研究项目中,并丰富了评分和基于语料库的度量(从熟悉度到词汇频率)。该数据集包括日常和文学隐喻,结构多样,语义领域广泛。Figurative Archive数据集的创建标志着该领域的一个重要进展,它不仅提供了大量的隐喻实例,还包括了一个新颖的包容性度量,以符合当前对无歧视语言使用的推荐。此外,该数据集还提供了一个基于网络的界面,具有灵活和定制的查询功能,便于研究人员使用。
当前挑战
Figurative Archive数据集在隐喻研究领域面临着一些挑战。首先,隐喻的跨语言映射并不容易,因此需要探索不同语言之间隐喻的稳定性。其次,构建过程中遇到的挑战包括如何确保数据的可靠性和可重复性,以及如何平衡隐喻的多样性和一致性。最后,随着大型语言模型(LLMs)的发展,如何利用Figurative Archive数据集来测试LLMs的比喻语言能力,并促进非英语语言资源的开发,也是一个重要的挑战。
常用场景
经典使用场景
Figurative Archive 数据集是一个开放数据库,包含 997 个意大利语的隐喻,这些隐喻被广泛应用于语言和认知研究,例如语用推理、抽象和具身模拟。该数据集包括日常和文学隐喻,在结构和语义领域上有所不同。数据集的验证包括熟悉度和其他措施之间的相关性。Figurative Archive 的几个新颖之处:与以前的资源相比,它的规模更大;它包括一个包容性指标,以符合当前对非歧视性语言使用的建议;它以网络界面的形式展示,具有灵活和定制的咨询功能。我们提供了在使用 Archive 进行未来隐喻研究时的指导方针,以促进开放科学。
衍生相关工作
Figurative Archive 衍生了一些相关的经典工作。例如,该数据集可以促进大型语言模型(LLMs)中比喻语言能力的系统测试。此外,它还可以作为构建意大利语基准的基础,以符合对非英语语言资源的日益增长的需求。此外,虽然 Figurative Archive 包含意大利语隐喻,但我们相信它对跨语言研究也很有趣。隐喻在人类语言中是一个标志,并且在某些情况下,它们在语言之间显示出相当程度的稳定性。因此,该界面不仅提供关键隐喻术语的翻译,而且还提供搜索与特定主题(或载体)相关的隐喻的可能性,这取决于熟悉度和其他特征,可能在不同的语言中(或不)是等效的。
数据集最近研究
最新研究方向
Figurative Archive数据集的推出为隐喻研究带来了新的方向。该数据集不仅包含了丰富的意大利语隐喻实例,还提供了基于语料库的度量,如熟悉度和词频等。这为研究者提供了研究隐喻在语言和认知过程中的作用的工具,包括推论机制、抽象和具身模拟等方面。此外,数据集还引入了包容性这一新度量,以符合当前对无歧视语言使用的建议。Web界面的设计使得数据集易于导航和个性化搜索,从而鼓励了可重复的研究。未来,该数据集有望促进大型语言模型在比喻语言能力方面的系统测试,并为非英语语言提供基准资源。
相关研究论文
  • 1
    Figurative Archive: an open dataset and web-based application for the study of metaphor意大利帕维亚高级研究大学实验神经语言学和实验语用学实验室(NEPLab) · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作