five

Metaphor Dataset

收藏
github2024-06-07 更新2024-06-08 收录
下载链接:
https://github.com/lcc-api/metaphor
下载链接
链接失效反馈
官方服务:
资源简介:
这些数据集代表了Language Computer Corp.在2012-2014年期间参与IARPA Metaphor项目的工作成果。数据集分为小版本和大版本,包含多种语言(英语、西班牙语、俄语、波斯语)的源/目标对、隐喻性标注、概念映射标注和情感标注。

These datasets represent the outcomes of Language Computer Corp.'s involvement in the IARPA Metaphor project from 2012 to 2014. The datasets are divided into small and large versions, encompassing source/target pairs in multiple languages (English, Spanish, Russian, Persian), along with metaphorical annotations, conceptual mapping annotations, and sentiment annotations.
创建时间:
2024-05-31
原始信息汇总

数据集概述

数据集版本

  • 小型版本

    • en_small.xml (英语): 包含16265个源/目标对,17336个隐喻性标注,7941个概念映射标注,以及3932个情感标注。
    • es_small.xml (西班牙语): 包含14524个源/目标对,15743个隐喻性标注,7365个概念映射标注,以及3569个情感标注。
  • 大型版本

    • en_large.xml (英语): 包含167479个源/目标对,86860个隐喻性标注,51324个概念映射标注,以及25277个情感标注。
    • es_large.xml (西班牙语): 包含115799个源/目标对,70071个隐喻性标注,46063个概念映射标注,以及21889个情感标注。
    • ru_large.xml (俄语): 包含64019个源/目标对,48497个隐喻性标注,24465个概念映射标注,以及13389个情感标注。
    • fa_large.xml (波斯语): 包含80167个源/目标对,63750个隐喻性标注,39529个概念映射标注,以及16953个情感标注。

数据集属性

  • annotatorID: 唯一标识一个标注者。
  • chain: 表示源到目标的关系,通过预处理的MALT PARSER关系(*表示源/目标的共同概括者)。
  • creationTime: 标注实例的时间戳(毫秒)。
  • docid: 唯一标识一个文档。
  • id: 唯一标识一个特定类型的标注。
  • intensity: 强度(0, 1, 2, 3)。
  • polarity: 极性(NEGATIVE, NEUTRAL, POSITIVE)。
  • protagonist: 主角(GENERAL, GOVERNMENT_OVERSIGHT, INDIVIDUAL_OVERSIGHT)。
  • score: 分数(-1, 0, 1, 2, 3),其中-1表示源/目标之间的无效句法关系。
  • sourceConcept: 源概念。
  • targetConcept: 目标概念。
  • type: 类型(ANNOTATOR_EXAMPLES, RECALL_VALIDATIONS, SYSTEM_VALIDATIONS, UNVALIDATED)。

许可证

  • 本数据集遵循CreativeCommons-Attribution-NonCommercial-ShareAlike v4.0许可证。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由Language Computer Corp.在2012年至2014年间的IARPA Metaphor项目中构建,旨在深入研究语言中的隐喻现象。数据集分为两个版本:小型版本和大型版本。小型版本包含英语和西班牙语的隐喻对及其相关注释,而大型版本则进一步扩展至俄语和波斯语。每个版本的数据均通过详细的XML格式存储,包含源概念、目标概念、隐喻性注释、概念映射注释和情感注释等多维度信息。这些注释由多个标注者独立完成,确保数据的多样性和可靠性。
特点
该数据集的显著特点在于其多语言覆盖和多维度注释。不仅涵盖了英语、西班牙语、俄语和波斯语四种语言,还提供了丰富的隐喻性、概念映射和情感注释。这些注释不仅有助于理解隐喻的语义结构,还能揭示不同文化背景下隐喻的情感色彩和认知模式。此外,数据集的XML格式使得数据易于解析和处理,适合用于自然语言处理和认知科学研究。
使用方法
使用该数据集时,研究者可以通过解析XML文件获取源概念和目标概念的隐喻对及其相关注释。数据集提供了详细的属性定义,如annotatorID、chain、creationTime等,便于研究者进行数据清洗和分析。研究者可以利用这些数据进行隐喻识别、情感分析、跨语言隐喻比较等研究。此外,数据集的Creative Commons许可证允许非商业性使用和共享,促进了学术交流和合作。
背景与挑战
背景概述
Metaphor Dataset是由Language Computer Corp.在2012年至2014年间,作为IARPA Metaphor Project的一部分创建的。该数据集的核心研究问题在于探索和分析语言中的隐喻现象,旨在通过大规模的隐喻实例来提升自然语言处理技术。数据集的发布分为两个版本:小型版本包含英语和西班牙语的隐喻对及其相关注释,而大型版本则进一步扩展至俄语和波斯语,提供了更为丰富的隐喻实例和注释。这一数据集的创建不仅推动了隐喻研究的深入,也为跨语言隐喻分析提供了宝贵的资源,对语言学和计算语言学领域产生了深远影响。
当前挑战
Metaphor Dataset在构建过程中面临多重挑战。首先,隐喻的识别和分类本身就是一个复杂的问题,涉及语义、语法和上下文的深度分析。其次,跨语言隐喻的统一标注标准和注释一致性问题,增加了数据集构建的难度。此外,数据集的规模和多样性要求高效的注释工具和方法,以确保注释的准确性和一致性。最后,隐喻的情感和概念映射注释需要高度专业化的知识和技能,这对注释团队的专业素养提出了高要求。这些挑战不仅影响了数据集的质量,也对其在实际应用中的效能提出了考验。
常用场景
经典使用场景
在语言学研究领域,Metaphor Dataset 被广泛用于隐喻识别与分析。该数据集通过提供大量的源概念与目标概念对,以及相应的隐喻性、概念映射和情感注释,为研究者提供了丰富的资源。研究者可以利用这些数据训练和评估隐喻识别模型,探索语言中隐喻的生成与理解机制。
衍生相关工作
基于 Metaphor Dataset,研究者们开展了多项相关工作,包括跨语言隐喻识别模型的开发、隐喻情感分析的深化研究以及隐喻在机器翻译中的应用。这些工作不仅丰富了隐喻研究的理论框架,还推动了自然语言处理技术在实际应用中的进步。
数据集最近研究
最新研究方向
在语言学与计算语言学的交叉领域,Metaphor Dataset的最新研究方向主要集中在隐喻识别与理解的自动化方法上。该数据集通过丰富的源/目标对及其多维度的注释,为研究者提供了深入探讨隐喻在不同语言和文化背景下的表达与解读的宝贵资源。当前,研究者们正利用这些数据集开发和优化机器学习模型,以实现对隐喻的自动检测、分类和解释,从而推动自然语言处理技术在文学分析、跨文化交流及教育应用中的发展。此外,该数据集的跨语言特性也激发了多语言隐喻处理的研究,旨在构建能够理解和生成多语言隐喻的智能系统。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作