Potential Idiomatic Expression (PIE)-English

Name: Potential Idiomatic Expression (PIE)-English
Creator: 卢利奥理工大学
Published: 2022-04-23 17:56:03
License: 暂无描述

arXiv2022-04-23 更新2024-07-24 收录

下载链接：

https://github.com/tosingithub/idesk

下载链接

链接失效反馈

官方服务：

资源简介：

本研究介绍了名为‘Potential Idiomatic Expression (PIE)-English’的数据集，由卢利奥理工大学创建，旨在为英语自然语言处理提供一个大规模的习语数据集。该数据集包含超过20,174条样本，涵盖近1,200个习语案例，分为10个类别，如隐喻、明喻等。数据主要来源于英国国家语料库和英国网页语料库。通过手动提取和标注，确保了数据的高质量和准确性。该数据集适用于机器翻译、词义消歧等NLP任务，有助于提升对话系统和信息检索的性能。

This study presents a dataset titled 'Potential Idiomatic Expression (PIE)-English', developed by Luleå University of Technology. This dataset aims to supply a large-scale idiom resource for English natural language processing (NLP). It encompasses more than 20,174 samples, covering nearly 1,200 idiom instances, and is classified into 10 categories including metaphor, simile, and others. The primary sources of the dataset are the British National Corpus and the UK Web Corpus. Manual extraction and annotation procedures are implemented to guarantee the high quality and accuracy of the collected data. This dataset is applicable to multiple NLP tasks such as machine translation, word sense disambiguation, and others, and can facilitate the performance enhancement of dialogue systems and information retrieval systems.

提供机构：

卢利奥理工大学

创建时间：

2021-04-25

原始信息汇总

PIE-English: Corpus for Classes of Idioms

引用信息

标题: Potential Idiomatic Expression (PIE)-English: Corpus for Classes of Idioms
作者: Adewumi, Tosin and Vadoodi, Roshanak and Tripathy, Aparajia and Nikolaidou, Konstantina and Liwicki, Foteini and Liwicki, Marcus
会议: Proceedings of the Thirteenth International Conference on Language Resources and Evaluation (LREC 2022)
时间: June 2022
地点: Marseille, France
出版商: European Language Resources Association (ELRA)
URL: http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.72.pdf

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，习语识别一直是机器翻译和词义消歧等任务中的核心挑战。Potential Idiomatic Expression (PIE)-English 数据集的构建采用了基于上下文的标记方法，从英国国家语料库和英国网页语料库中手动提取样本。研究团队依据字典系统筛选了近1200个习语案例，并为每个案例收集了包含习语和字面用法的句子样本，确保每个案例至少包含16个习语样本和6个字面样本。通过四位第二语言英语贡献者的细致采集和一位近母语者的全面审核，该过程有效避免了自动提取中常见的错误，最终形成了包含20,174个样本的高质量语料库。

特点

该数据集在习语分类研究领域具有显著特色，其不仅涵盖了字面和一般习语类别，还精细标注了隐喻、明喻、委婉语、平行结构、拟人、矛盾修辞、悖论、夸张、反讽等十种修辞类别。数据规模达到20,100余个样本，其中隐喻类占比最高，反映了语言使用的实际分布。语料库还提供了词性标注信息，并经过严格的人工审核，确保了88.89%的标注者间一致性。这种多类别、大规模且高质量的特点，为深度学习模型提供了丰富的训练资源，推动了习语细粒度分类研究的发展。

使用方法

该数据集适用于自然语言处理中习语识别与分类的多项任务，研究人员可通过分层抽样方法将数据划分为训练集和验证集，以应对类别不均衡问题。在预处理阶段，可进行文本清洗和标准化操作，随后利用多种机器学习模型进行实验，如多项式朴素贝叶斯、支持向量机以及BERT等预训练模型。数据集的公开可用性允许研究者进一步扩展样本或添加IOB标记等附加信息，以适应特定的研究需求。通过该数据集，学者能够建立可靠的基线模型，并深入探索不同修辞类别在上下文中的语义表现。

背景与挑战

背景概述

在自然语言处理领域，习语识别与分类长期面临数据资源匮乏的挑战，尤其缺乏细粒度标注的习语语料库。Potential Idiomatic Expression (PIE)-English 数据集由瑞典吕勒奥理工大学的研究团队于2022年构建，旨在填补这一空白。该数据集聚焦于上下文驱动的习语检测任务，核心研究问题在于如何准确区分习语与其字面用法，并进一步将习语细分为隐喻、明喻、委婉语等十种类别。通过从英国国家语料库和UKWaC中手动提取超过20,100个样本，涵盖近1,200个习语实例，该数据集为机器翻译、词义消歧等自然语言处理任务提供了关键资源，推动了语义理解模型的发展。

当前挑战

PIE-English 数据集所针对的领域挑战在于习语在自然语言处理中的歧义性问题，习语作为多词表达，其语义往往无法从构成词汇直接推导，这给机器翻译、对话系统等任务带来了显著的识别与解释困难。在构建过程中，研究团队面临的主要挑战包括：习语类别之间界限模糊，如隐喻与拟人化常存在重叠，导致标注一致性难以保证；数据收集需依赖手动从大型语料库中筛选，过程耗时且需克服样本分布不均的问题，例如隐喻类样本占比过高而反讽等类别样本稀缺；此外，确保标注质量需通过多位标注者达成高一致性，最终获得88.89%的标注者间协议分数以维持数据可靠性。

常用场景

经典使用场景

在自然语言处理领域，习语识别与分类一直是语义理解的核心挑战之一。Potential Idiomatic Expression (PIE)-English 数据集以其精细的类别标注和丰富的样本规模，为基于上下文的习语检测任务提供了经典的应用场景。该数据集通过从英国国家语料库和英国网页语料库中手动提取超过20,100个样本，涵盖了隐喻、明喻、委婉语等十类习语表达，使得研究者能够训练模型在真实语境中区分习语与字面意义，从而提升机器翻译、词义消歧等任务的准确性。

衍生相关工作

基于 PIE-English 数据集，研究者们衍生了一系列经典工作，主要集中在习语检测模型的优化与跨语言扩展方面。例如，有研究利用该数据集的类别信息，开发了基于 BERT 的细粒度分类器，在隐喻和委婉语识别上取得了先进性能。同时，该数据集也激发了多语言习语语料库的构建浪潮，如针对其他语言的类似标注项目，促进了跨文化语境下比喻性语言的比较研究，为全球自然语言处理社区的协作创新提供了重要参考。

数据集最近研究