gsarti/magpie

Name: gsarti/magpie
Creator: gsarti
Published: 2022-10-27 08:37:46
License: 暂无描述

Hugging Face2022-10-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gsarti/magpie

下载链接

链接失效反馈

官方服务：

资源简介：

MAGPIE语料库（Haagsma et al. 2020）是一个大规模的意义标注语料库，包含潜在的习语表达（PIEs），基于英国国家语料库（BNC）。潜在的习语表达类似于习语表达，但也包括习语表达的字面用法，例如“我在一天结束时下班”中的“一天结束时”。该数据集版本反映了Dankers等人（2022）在研究中使用的过滤子集，用于研究NMT模型如何表示PIEs。作者使用了37k个标注为完全比喻或字面的样本，涉及1482个包含名词、数字或颜色形容词的习语（称为关键词）。由于习语在句法和形态上具有可变性，研究主要集中在名词上。PIEs及其上下文使用原始语料库的词级注释进行分离。

The MAGPIE Corpus (Haagsma et al. 2020) is a large-scale meaning-annotated corpus containing Potential Idiomatic Expressions (PIEs), which was constructed based on the British National Corpus (BNC). Potential Idiomatic Expressions (PIEs) are similar to standard idiomatic expressions, but also cover their literal usage; for instance, the phrase "at the end of the day" in the sentence "I finish work at the end of the day". This specific version of the dataset corresponds to the filtered subset used in the study conducted by Dankers et al. (2022), which investigates how Neural Machine Translation (NMT) models represent PIEs. The authors employed 37,000 samples annotated as either fully figurative or literal, which are associated with 1,482 idioms containing nouns, numbers, or color adjectives—these idioms are referred to as "keywords". Owing to the syntactic and morphological variability inherent in idioms, the study primarily focuses on nouns. PIEs and their surrounding contextual instances were isolated using the word-level annotations from the original corpus.

提供机构：

gsarti

原始信息汇总

数据集概述

数据集名称： MAGPIE

数据集描述： MAGPIE是一个大规模的潜在习语表达（PIEs）的感官注释语料库，基于英国国家语料库（BNC）。该数据集包含37,000个样本，注释为完全比喻或字面意义，涉及1482个包含颜色名词、数字或形容词的习语。

语言： 英语（BCP-47 en）

数据集结构：

数据实例： 每个实例包含句子、注释、习语、使用方式、变体和词性标签。
数据分割： 训练集包含44,451个实例。

许可证： 知识共享4.0许可证（CC-BY-4.0）

任务类别： 文本分类、文本到文本生成、翻译

数据集创建： 由专家生成，参考原始文章MAGPIE: A Large Corpus of Potentially Idiomatic Expressions和Can Transformer be Too Compositional? Analysing Idiom Processing in Neural Machine Translation。

引用信息： bibtex @inproceedings{haagsma-etal-2020-magpie, title = "{MAGPIE}: A Large Corpus of Potentially Idiomatic Expressions", author = "Haagsma, Hessel and Bos, Johan and Nissim, Malvina", booktitle = "Proceedings of the 12th Language Resources and Evaluation Conference", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2020.lrec-1.35", pages = "279--287", language = "English", ISBN = "979-10-95546-34-4", } @inproceedings{dankers-etal-2022-transformer, title = "Can Transformer be Too Compositional? Analysing Idiom Processing in Neural Machine Translation", author = "Dankers, Verna and Lucas, Christopher and Titov, Ivan", booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = may, year = "2022", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.acl-long.252", doi = "10.18653/v1/2022.acl-long.252", pages = "3608--3626", }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，习语理解一直是语义分析的关键挑战。MAGPIE语料库的构建源于对潜在习语表达的系统性标注需求，其基础源自英国国家语料库。专家团队通过人工标注方式，识别出包含名词、数词或颜色形容词的1482个习语，并针对每个句子中的潜在习语表达进行精细标注，区分其比喻用法与字面用法。该数据集最终收录了约4.4万条经过筛选的样本，每个样本均包含完整的句子文本、习语位置标注、用法分类及词性标记，形成了结构化的语义标注体系。

使用方法

在具体应用层面，该数据集为多种自然语言处理任务提供了丰富的训练资源。研究者可直接加载数据集进行习语识别模型的训练，利用标注信息构建序列标注任务。数据集中的用法分类标签可用于开发习语语义消歧系统，帮助模型区分比喻与字面含义。通过分析变体标注信息，可进一步研究习语的形态句法灵活性。该数据集还可作为评估机器翻译系统习语处理能力的基准，探究神经模型对非组合性表达的翻译机制。所有数据均保持原始文本格式，便于研究者根据具体任务需求进行后续处理。

背景与挑战

背景概述

在自然语言处理领域，习语理解一直是语义解析的难点，因其非组合性特征对机器翻译与文本分类模型构成显著挑战。MAGPIE语料库由Hessel Haagsma、Johan Bos与Malvina Nissim等学者于2020年构建，基于英国国家语料库（BNC），专注于标注潜在习语表达（PIEs）的语义类型。该数据集旨在探究习语在上下文中的比喻性与字面性用法，为神经机器翻译模型中的习语处理机制提供分析基础，推动了计算语言学在语义歧义消解方面的研究进展。

当前挑战

MAGPIE数据集所针对的核心问题在于习语自动识别与分类，其挑战体现在习语的句法变异性和语义模糊性，例如同一表达在不同语境中可能呈现比喻或字面含义，导致模型难以准确捕捉其非组合语义。在构建过程中，数据标注需依赖专家知识以区分PIEs的细微差别，同时需处理原始语料中习语的形态学变体，确保标注一致性与覆盖范围，这增加了数据集创建的复杂度与资源消耗。

常用场景

经典使用场景

在自然语言处理领域，习语理解一直是语义分析中的难点，MAGPIE数据集为此提供了关键资源。该数据集经典应用于训练和评估模型对潜在习语表达的识别与分类能力，特别是在区分习语的比喻性和字面性用法方面。研究者利用其大规模标注样本，构建分类器以自动判断句子中习语的使用方式，从而深化对语言非组合性现象的计算建模。

解决学术问题

MAGPIE数据集有效解决了计算语言学中习语处理的若干核心问题，包括习语变体的句法形态多样性建模以及比喻与字面义歧义消解。通过提供精细的用法标注，它助力探究神经机器翻译模型对习语组合性的表征局限，揭示了Transformer架构在处理非组合性短语时的潜在缺陷，推动了语义组合理论在深度学习中的实证研究。

实际应用

在实际应用中，MAGPIE数据集为机器翻译、文本理解和生成系统提供了关键支持。基于该数据集训练的模型能够提升翻译系统对习语的处理准确性，避免直译错误；同时，在聊天机器人、内容摘要等场景中，增强对含习语文本的语义把握，改善人机交互的自然性与流畅性，具有显著的工程价值。

数据集最近研究