Metaphor Dataset

github2024-06-07 更新2024-06-08 收录

下载链接：

https://github.com/lcc-api/metaphor

下载链接

链接失效反馈

官方服务：

资源简介：

这些数据集代表了Language Computer Corp.在2012-2014年期间参与IARPA Metaphor项目的工作成果。数据集分为小版本和大版本，包含多种语言（英语、西班牙语、俄语、波斯语）的源/目标对、隐喻性标注、概念映射标注和情感标注。

These datasets represent the outcomes of Language Computer Corp.'s involvement in the IARPA Metaphor project from 2012 to 2014. The datasets are divided into small and large versions, encompassing source/target pairs in multiple languages (English, Spanish, Russian, Persian), along with metaphorical annotations, conceptual mapping annotations, and sentiment annotations.

创建时间：

2024-05-31

原始信息汇总

数据集概述

数据集版本

小型版本：
- en_small.xml (英语): 包含16265个源/目标对，17336个隐喻性标注，7941个概念映射标注，以及3932个情感标注。
- es_small.xml (西班牙语): 包含14524个源/目标对，15743个隐喻性标注，7365个概念映射标注，以及3569个情感标注。
大型版本：
- en_large.xml (英语): 包含167479个源/目标对，86860个隐喻性标注，51324个概念映射标注，以及25277个情感标注。
- es_large.xml (西班牙语): 包含115799个源/目标对，70071个隐喻性标注，46063个概念映射标注，以及21889个情感标注。
- ru_large.xml (俄语): 包含64019个源/目标对，48497个隐喻性标注，24465个概念映射标注，以及13389个情感标注。
- fa_large.xml (波斯语): 包含80167个源/目标对，63750个隐喻性标注，39529个概念映射标注，以及16953个情感标注。

数据集属性

annotatorID: 唯一标识一个标注者。
chain: 表示源到目标的关系，通过预处理的MALT PARSER关系（*表示源/目标的共同概括者）。
creationTime: 标注实例的时间戳（毫秒）。
docid: 唯一标识一个文档。
id: 唯一标识一个特定类型的标注。
intensity: 强度（0, 1, 2, 3）。
polarity: 极性（NEGATIVE, NEUTRAL, POSITIVE）。
protagonist: 主角（GENERAL, GOVERNMENT_OVERSIGHT, INDIVIDUAL_OVERSIGHT）。
score: 分数（-1, 0, 1, 2, 3），其中-1表示源/目标之间的无效句法关系。
sourceConcept: 源概念。
targetConcept: 目标概念。
type: 类型（ANNOTATOR_EXAMPLES, RECALL_VALIDATIONS, SYSTEM_VALIDATIONS, UNVALIDATED）。

许可证

本数据集遵循CreativeCommons-Attribution-NonCommercial-ShareAlike v4.0许可证。

搜集汇总

数据集介绍

构建方式

该数据集由Language Computer Corp.在2012年至2014年间的IARPA Metaphor项目中构建，旨在深入研究语言中的隐喻现象。数据集分为两个版本：小型版本和大型版本。小型版本包含英语和西班牙语的隐喻对及其相关注释，而大型版本则进一步扩展至俄语和波斯语。每个版本的数据均通过详细的XML格式存储，包含源概念、目标概念、隐喻性注释、概念映射注释和情感注释等多维度信息。这些注释由多个标注者独立完成，确保数据的多样性和可靠性。

特点

该数据集的显著特点在于其多语言覆盖和多维度注释。不仅涵盖了英语、西班牙语、俄语和波斯语四种语言，还提供了丰富的隐喻性、概念映射和情感注释。这些注释不仅有助于理解隐喻的语义结构，还能揭示不同文化背景下隐喻的情感色彩和认知模式。此外，数据集的XML格式使得数据易于解析和处理，适合用于自然语言处理和认知科学研究。

使用方法

使用该数据集时，研究者可以通过解析XML文件获取源概念和目标概念的隐喻对及其相关注释。数据集提供了详细的属性定义，如annotatorID、chain、creationTime等，便于研究者进行数据清洗和分析。研究者可以利用这些数据进行隐喻识别、情感分析、跨语言隐喻比较等研究。此外，数据集的Creative Commons许可证允许非商业性使用和共享，促进了学术交流和合作。

背景与挑战

背景概述

Metaphor Dataset是由Language Computer Corp.在2012年至2014年间，作为IARPA Metaphor Project的一部分创建的。该数据集的核心研究问题在于探索和分析语言中的隐喻现象，旨在通过大规模的隐喻实例来提升自然语言处理技术。数据集的发布分为两个版本：小型版本包含英语和西班牙语的隐喻对及其相关注释，而大型版本则进一步扩展至俄语和波斯语，提供了更为丰富的隐喻实例和注释。这一数据集的创建不仅推动了隐喻研究的深入，也为跨语言隐喻分析提供了宝贵的资源，对语言学和计算语言学领域产生了深远影响。

当前挑战

Metaphor Dataset在构建过程中面临多重挑战。首先，隐喻的识别和分类本身就是一个复杂的问题，涉及语义、语法和上下文的深度分析。其次，跨语言隐喻的统一标注标准和注释一致性问题，增加了数据集构建的难度。此外，数据集的规模和多样性要求高效的注释工具和方法，以确保注释的准确性和一致性。最后，隐喻的情感和概念映射注释需要高度专业化的知识和技能，这对注释团队的专业素养提出了高要求。这些挑战不仅影响了数据集的质量，也对其在实际应用中的效能提出了考验。

常用场景

经典使用场景

在语言学研究领域，Metaphor Dataset 被广泛用于隐喻识别与分析。该数据集通过提供大量的源概念与目标概念对，以及相应的隐喻性、概念映射和情感注释，为研究者提供了丰富的资源。研究者可以利用这些数据训练和评估隐喻识别模型，探索语言中隐喻的生成与理解机制。

衍生相关工作

基于 Metaphor Dataset，研究者们开展了多项相关工作，包括跨语言隐喻识别模型的开发、隐喻情感分析的深化研究以及隐喻在机器翻译中的应用。这些工作不仅丰富了隐喻研究的理论框架，还推动了自然语言处理技术在实际应用中的进步。

数据集最近研究