MAGPIE Corpus

github2024-04-06 更新2024-05-31 收录

下载链接：

https://github.com/hslh/magpie-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

MAGPIE语料库是一个大规模的语义标注数据集，专注于可能的习语表达（PIEs），基于英国国家语料库（BNC）。该数据集包含56,622个实例，覆盖1,756种不同的习语类型，所有这些都通过众包方式获得意义标签。

The MAGPIE corpus is a large-scale semantically annotated dataset focusing on potential idiomatic expressions (PIEs), based on the British National Corpus (BNC). This dataset comprises 56,622 instances, covering 1,756 distinct types of idioms, all of which have been labeled for meaning through crowdsourcing.

创建时间：

2019-11-28

原始信息汇总

MAGPIE Corpus 概述

数据集描述

名称：MAGPIE Corpus
类型：大型感官注释语料库，专注于潜在成语表达（PIEs）。
基础：基于英国国家语料库（BNC）。
规模：包含56,622个实例，涵盖1,756种不同的成语类型，所有成语类型均带有众包意义标签。

内容与使用

文件：包含三个jsonl文件，分别是MAGPIE_unfiltered.jsonl、MAGPIE_filtered_split_random.jsonl和MAGPIE_filtered_split_typebased.jsonl。
- MAGPIE_unfiltered.jsonl：包含所有PIEs，不论注释信心或意义标签。
- MAGPIE_filtered_split_random.jsonl：过滤后的子集，仅包含注释信心水平为75%且具有二元意义标签（成语或字面）的PIEs，随机分为训练、开发和测试集。
- MAGPIE_filtered_split_typebased.jsonl：同样为过滤后的子集，但分割方式确保训练、开发和测试集之间无成语类型重叠。

格式

数据格式：JSON Lines格式，便于跨平台使用且人可读。
实例结构：每个实例包含多个字段，如confidence（信心值）、context（上下文）、document_id（文档ID）、genre（体裁）、id（实例ID）、idiom（成语）、label（标签）等。

搜集汇总

数据集介绍

构建方式

MAGPIE Corpus的构建基于英国国家语料库（BNC），专注于标注潜在习语表达（PIEs）。该数据集通过众包方式对56,622个实例进行了意义标注，涵盖了1,756种不同的习语类型。每个实例的标注不仅包括习语的用法，还涵盖了其字面意义的使用场景。数据集的构建过程确保了标注的多样性和广泛性，为研究习语的语义变化提供了丰富的语料支持。

特点

MAGPIE Corpus的特点在于其大规模的习语标注和多样化的习语类型。数据集不仅包含了习语的惯用意义，还涵盖了其字面意义的使用实例，为研究习语的多义性提供了重要资源。此外，数据集通过标注置信度和二元意义标签（惯用或字面）对实例进行了过滤，确保了数据的可靠性。数据集以JSON Lines格式存储，既便于跨平台使用，又保持了人类可读性。

使用方法

MAGPIE Corpus的使用方法灵活多样，适用于多种自然语言处理任务。数据集提供了三个JSON Lines文件，分别包含未过滤的完整数据集和经过过滤的子集。过滤后的子集根据标注置信度和二元意义标签进行了筛选，并提供了随机分割和基于习语类型分割的两种划分方式。用户可以根据研究需求选择合适的文件进行训练、开发和测试。数据集的JSON Lines格式使其易于在各种编程环境中加载和处理，为习语识别和语义分析研究提供了便利。

背景与挑战

背景概述

MAGPIE语料库是一个大规模、带有语义标注的潜在习语表达（PIEs）数据集，基于英国国家语料库（BNC）构建。该语料库由研究人员在2020年发布，旨在解决自然语言处理领域中对习语及其字面用法的识别与理解问题。MAGPIE语料库包含了56,622个实例，涵盖了1,756种不同的习语类型，并通过众包方式为每个实例标注了语义标签。该数据集的发布为习语识别、语义消歧以及机器翻译等任务提供了重要的资源支持，推动了相关领域的研究进展。

当前挑战

MAGPIE语料库在构建过程中面临多重挑战。首先，习语的语义多样性使得标注工作复杂化，同一习语在不同语境下可能具有字面或隐喻意义，这对标注者的语言理解能力提出了较高要求。其次，数据集的规模和质量依赖于众包标注，如何确保标注的一致性和准确性成为关键问题。此外，习语的跨语言和文化差异也为数据集的泛化能力带来了挑战，限制了其在多语言环境中的应用。最后，数据集的划分方式（如随机划分与基于习语类型的划分）对模型的训练和评估结果产生了显著影响，如何设计合理的划分策略以提升模型的泛化性能仍需进一步探索。

常用场景

经典使用场景

MAGPIE Corpus作为一个大规模标注的潜在习语表达（PIE）语料库，广泛应用于自然语言处理领域，特别是在习语识别和语义理解任务中。研究者利用该数据集训练和评估模型，以区分习语的隐喻和字面意义，从而提升机器对复杂语言现象的理解能力。其基于英国国家语料库（BNC）的构建，确保了数据的多样性和代表性，使其成为习语研究领域的经典资源。

实际应用

在实际应用中，MAGPIE Corpus为智能助手、机器翻译系统和文本分析工具提供了重要的数据支持。例如，在智能助手中，准确理解用户输入的习语表达可以显著提升交互的自然性和准确性。在机器翻译中，区分习语的隐喻和字面意义有助于生成更符合目标语言习惯的翻译结果。此外，该数据集还可用于教育领域，帮助语言学习者更好地掌握习语的用法。

衍生相关工作

MAGPIE Corpus的发布催生了一系列相关研究，特别是在习语识别和语义理解领域。许多研究基于该数据集开发了新的算法和模型，如基于深度学习的习语分类器和上下文感知的语义分析工具。此外，该数据集还被用于跨语言习语研究，推动了多语言习语资源的构建和比较分析。这些工作不仅扩展了习语研究的深度和广度，还为自然语言处理的其他任务提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集