UniMet

github2022-05-12 更新2024-05-31 收录

下载链接：

https://github.com/kbatsuren/UniMet

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含26,702个实例的转喻语料库，涵盖189种语言和24种转喻模式，用于研究语言中的转喻现象。

This is a metonymy corpus comprising 26,702 instances, covering 189 languages and 24 metonymy patterns, designed for the study of metonymy phenomena in languages.

创建时间：

2022-05-08

原始信息汇总

数据集概述

数据集名称

UniMet: Universal Metonymy

数据集内容

包含语言和实例数量：26,702个metonymy实例，涵盖189种语言。
涉及的metonymy模式：24种metonymy模式。

数据集结构

列描述：
- index：metonymy实例索引。
- language：语言ISO-3代码。
- family：语言家族。
- genus：语言属。
- src_domain：源域。
- trg_domain：目标域。
- form：metonymy形式。
- type：metonymy类型。
- concept_a：源概念的WordNet 3.0 ID。
- concept_b：目标概念的WordNet 3.0 ID。
- description_a：源概念描述。
- description_b：目标概念描述。
- english_word_a：源概念的英语词汇。
- english_word_b：目标概念的英语词汇。
- glotcode：语言的Glottolog代码。

参考文献

标题：Metonymy as a Universal Cognitive Phenomenon: Evidence from Multilingual Lexicons
作者：Khishigsuren, Temuulen et al.
发表年份：2022
发表月份：May
出版者：CogSci 2022
URL：psyarxiv.com/f6yjt
DOI：10.31234/osf.io/f6yjt

搜集汇总

数据集介绍

构建方式

UniMet数据集的构建基于全球189种语言的26,702个转喻实例，涵盖了24种转喻模式。数据收集过程中，研究者通过多语言词汇库和WordNet 3.0的语义网络，系统地标注了每个转喻实例的源域、目标域、形式及类型。此外，数据集还详细记录了每种语言的语言家族、属类以及转喻概念的WordNet标识符和英文描述，确保了数据的广泛性和深度。

特点

UniMet数据集以其跨语言的广泛覆盖和细致的语义标注而著称。它不仅涵盖了全球多种语言家族的转喻现象，还通过WordNet 3.0的语义网络为每个转喻实例提供了精确的语义标识。数据集中的每一实例均包含源域与目标域的详细描述，以及对应的英文词汇，为研究者提供了丰富的语义信息和跨语言比较的基础。

使用方法

UniMet数据集适用于跨语言转喻研究、语义网络分析及认知语言学领域的研究。研究者可以通过语言ISO-3代码或Glottolog代码筛选特定语言的转喻实例，结合WordNet标识符进行语义分析。此外，数据集中的源域与目标域描述为语义映射研究提供了重要参考，而英文词汇则为跨语言对比研究提供了便利。

背景与挑战

背景概述

UniMet数据集由Temuulen Khishigsuren等研究人员于2022年创建，旨在探索转喻（metonymy）作为一种普遍认知现象的多语言表现。该数据集涵盖了189种语言的26,702个转喻实例，涉及24种转喻模式。通过整合多语言词汇数据，UniMet为语言学家和认知科学家提供了一个跨语言、跨文化的转喻研究平台。其研究背景基于转喻在语言学和认知科学中的重要性，尤其是在理解语言表达与认知机制之间的关系方面。该数据集的发布为相关领域的研究提供了重要的数据支持，推动了跨语言转喻研究的深入发展。

当前挑战

UniMet数据集在构建过程中面临多重挑战。首先，转喻现象的多样性和复杂性使得数据标注和分类变得极为困难，尤其是在多语言环境下，不同语言对转喻的表达方式差异显著。其次，数据收集的广度与深度之间的平衡问题也尤为突出，如何在保证数据覆盖广泛语言的同时，确保每个语言实例的准确性和代表性，是构建过程中的一大难题。此外，跨语言数据对齐和标准化处理也带来了技术上的挑战，尤其是在不同语言家族和语系之间进行概念映射时，语义差异和语言结构的多样性增加了数据处理的复杂性。这些挑战不仅影响了数据集的构建效率，也对后续的研究应用提出了更高的要求。

常用场景

经典使用场景

UniMet数据集广泛应用于语言学、认知科学和自然语言处理领域，特别是在研究转喻现象的跨语言普遍性方面。研究者利用该数据集分析不同语言中转喻模式的出现频率和分布规律，揭示转喻作为一种认知现象的普遍性和多样性。通过对比不同语言家族和语系中的转喻实例，研究者能够深入理解转喻在人类语言中的认知基础和文化差异。

实际应用

在实际应用中，UniMet数据集为多语言自然语言处理系统的开发提供了重要支持。例如，在机器翻译和跨语言信息检索中，转喻现象的处理直接影响系统的准确性和流畅性。通过利用UniMet中的转喻实例，开发者可以训练模型更好地理解和处理不同语言中的转喻表达，从而提高系统的跨语言处理能力。此外，该数据集还可用于语言教学和跨文化交流研究，帮助学习者理解不同语言中的转喻现象。

衍生相关工作

UniMet数据集自发布以来，已衍生出多项经典研究工作。例如，基于该数据集的研究揭示了转喻在不同语言家族中的分布规律，并提出了新的转喻分类框架。此外，一些研究利用UniMet中的WordNet标注信息，开发了跨语言转喻识别算法，显著提升了自然语言处理系统对转喻现象的处理能力。这些工作不仅推动了转喻研究的深入发展，也为多语言计算语言学提供了新的工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集