Metaphor Dataset|语言学数据集|隐喻分析数据集

github2024-06-07 更新2024-06-08 收录

语言学

隐喻分析

下载链接：

https://github.com/lcc-api/metaphor

下载链接

链接失效反馈

资源简介：

这些数据集代表了Language Computer Corp.在2012-2014年期间参与IARPA Metaphor项目的工作成果。数据集分为小版本和大版本，包含多种语言（英语、西班牙语、俄语、波斯语）的源/目标对、隐喻性标注、概念映射标注和情感标注。

These datasets represent the outcomes of Language Computer Corp.'s involvement in the IARPA Metaphor project from 2012 to 2014. The datasets are divided into small and large versions, encompassing source/target pairs in multiple languages (English, Spanish, Russian, Persian), along with metaphorical annotations, conceptual mapping annotations, and sentiment annotations.

创建时间：

2024-05-31

原始信息汇总

数据集概述

数据集版本

小型版本：
- en_small.xml (英语): 包含16265个源/目标对，17336个隐喻性标注，7941个概念映射标注，以及3932个情感标注。
- es_small.xml (西班牙语): 包含14524个源/目标对，15743个隐喻性标注，7365个概念映射标注，以及3569个情感标注。
大型版本：
- en_large.xml (英语): 包含167479个源/目标对，86860个隐喻性标注，51324个概念映射标注，以及25277个情感标注。
- es_large.xml (西班牙语): 包含115799个源/目标对，70071个隐喻性标注，46063个概念映射标注，以及21889个情感标注。
- ru_large.xml (俄语): 包含64019个源/目标对，48497个隐喻性标注，24465个概念映射标注，以及13389个情感标注。
- fa_large.xml (波斯语): 包含80167个源/目标对，63750个隐喻性标注，39529个概念映射标注，以及16953个情感标注。

数据集属性

annotatorID: 唯一标识一个标注者。
chain: 表示源到目标的关系，通过预处理的MALT PARSER关系（*表示源/目标的共同概括者）。
creationTime: 标注实例的时间戳（毫秒）。
docid: 唯一标识一个文档。
id: 唯一标识一个特定类型的标注。
intensity: 强度（0, 1, 2, 3）。
polarity: 极性（NEGATIVE, NEUTRAL, POSITIVE）。
protagonist: 主角（GENERAL, GOVERNMENT_OVERSIGHT, INDIVIDUAL_OVERSIGHT）。
score: 分数（-1, 0, 1, 2, 3），其中-1表示源/目标之间的无效句法关系。
sourceConcept: 源概念。
targetConcept: 目标概念。
type: 类型（ANNOTATOR_EXAMPLES, RECALL_VALIDATIONS, SYSTEM_VALIDATIONS, UNVALIDATED）。

许可证

本数据集遵循CreativeCommons-Attribution-NonCommercial-ShareAlike v4.0许可证。

AI搜集汇总

数据集介绍

构建方式

该数据集由Language Computer Corp.在2012年至2014年间的IARPA Metaphor项目中构建，旨在深入研究语言中的隐喻现象。数据集分为两个版本：小型版本和大型版本。小型版本包含英语和西班牙语的隐喻对及其相关注释，而大型版本则进一步扩展至俄语和波斯语。每个版本的数据均通过详细的XML格式存储，包含源概念、目标概念、隐喻性注释、概念映射注释和情感注释等多维度信息。这些注释由多个标注者独立完成，确保数据的多样性和可靠性。

特点

该数据集的显著特点在于其多语言覆盖和多维度注释。不仅涵盖了英语、西班牙语、俄语和波斯语四种语言，还提供了丰富的隐喻性、概念映射和情感注释。这些注释不仅有助于理解隐喻的语义结构，还能揭示不同文化背景下隐喻的情感色彩和认知模式。此外，数据集的XML格式使得数据易于解析和处理，适合用于自然语言处理和认知科学研究。

使用方法

使用该数据集时，研究者可以通过解析XML文件获取源概念和目标概念的隐喻对及其相关注释。数据集提供了详细的属性定义，如annotatorID、chain、creationTime等，便于研究者进行数据清洗和分析。研究者可以利用这些数据进行隐喻识别、情感分析、跨语言隐喻比较等研究。此外，数据集的Creative Commons许可证允许非商业性使用和共享，促进了学术交流和合作。

背景与挑战

背景概述

Metaphor Dataset是由Language Computer Corp.在2012年至2014年间，作为IARPA Metaphor Project的一部分创建的。该数据集的核心研究问题在于探索和分析语言中的隐喻现象，旨在通过大规模的隐喻实例来提升自然语言处理技术。数据集的发布分为两个版本：小型版本包含英语和西班牙语的隐喻对及其相关注释，而大型版本则进一步扩展至俄语和波斯语，提供了更为丰富的隐喻实例和注释。这一数据集的创建不仅推动了隐喻研究的深入，也为跨语言隐喻分析提供了宝贵的资源，对语言学和计算语言学领域产生了深远影响。

当前挑战

Metaphor Dataset在构建过程中面临多重挑战。首先，隐喻的识别和分类本身就是一个复杂的问题，涉及语义、语法和上下文的深度分析。其次，跨语言隐喻的统一标注标准和注释一致性问题，增加了数据集构建的难度。此外，数据集的规模和多样性要求高效的注释工具和方法，以确保注释的准确性和一致性。最后，隐喻的情感和概念映射注释需要高度专业化的知识和技能，这对注释团队的专业素养提出了高要求。这些挑战不仅影响了数据集的质量，也对其在实际应用中的效能提出了考验。

常用场景

经典使用场景

在语言学研究领域，Metaphor Dataset 被广泛用于隐喻识别与分析。该数据集通过提供大量的源概念与目标概念对，以及相应的隐喻性、概念映射和情感注释，为研究者提供了丰富的资源。研究者可以利用这些数据训练和评估隐喻识别模型，探索语言中隐喻的生成与理解机制。

衍生相关工作

基于 Metaphor Dataset，研究者们开展了多项相关工作，包括跨语言隐喻识别模型的开发、隐喻情感分析的深化研究以及隐喻在机器翻译中的应用。这些工作不仅丰富了隐喻研究的理论框架，还推动了自然语言处理技术在实际应用中的进步。

数据集最近研究

最新研究方向

在语言学与计算语言学的交叉领域，Metaphor Dataset的最新研究方向主要集中在隐喻识别与理解的自动化方法上。该数据集通过丰富的源/目标对及其多维度的注释，为研究者提供了深入探讨隐喻在不同语言和文化背景下的表达与解读的宝贵资源。当前，研究者们正利用这些数据集开发和优化机器学习模型，以实现对隐喻的自动检测、分类和解释，从而推动自然语言处理技术在文学分析、跨文化交流及教育应用中的发展。此外，该数据集的跨语言特性也激发了多语言隐喻处理的研究，旨在构建能够理解和生成多语言隐喻的智能系统。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

Coffee_Shop_Sales

该数据集包含了咖啡店的详细交易信息，包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况，如收入和交易量的变化趋势。

github 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准，由华东师范大学等机构创建。该数据集包含33,735个问题，涵盖14个核心临床场景，主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制，确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力，解决医疗领域中模型性能评估的不足问题。

arXiv 收录