five

Meta4XNLI

收藏
arXiv2024-04-10 更新2024-06-21 收录
下载链接:
https://github.com/elisanchez-beep/meta4xnli
下载链接
链接失效反馈
官方服务:
资源简介:
Meta4XNLI是一个针对隐喻检测和解释的多语言平行语料库,包含西班牙语和英语的隐喻标注。该数据集由HiTZ巴斯克语言技术中心-Ixa NLP小组和巴斯克国家大学UPV/EHU创建,旨在通过一系列单语和跨语言实验,研究语言模型对隐喻语言的识别和理解能力。数据集包含平行数据和隐喻标注,支持跨语言分析,涵盖多个领域的自然语言句子,并包含双向翻译文本,便于分析翻译对隐喻的影响。该数据集的应用领域包括机器翻译、政治话语分析和仇恨言论检测等,旨在解决语言模型在处理非字面表达时的性能问题。

Meta4XNLI is a multilingual parallel corpus for metaphor detection and interpretation, with metaphor annotations for Spanish and English. Developed by HiTZ Basque Center for Language Technology - Ixa NLP Group and the University of the Basque Country UPV/EHU, this dataset aims to investigate the ability of language models to recognize and understand figurative language through a series of monolingual and cross-lingual experiments. It includes parallel data and metaphor annotations, supports cross-lingual analysis, covers natural language sentences from multiple domains, and contains bidirectional translated texts to facilitate the analysis of the impact of translation on metaphors. Its application fields include machine translation, political discourse analysis, hate speech detection and other scenarios, and it is designed to address the performance issues of language models when handling non-literal expressions.
提供机构:
HiTZ Basque Center for Language Technology - Ixa NLP Group, University of the Basque Country UPV/EHU
创建时间:
2024-04-10
搜集汇总
数据集介绍
main_image_url
构建方式
在隐喻处理研究领域,跨语言平行资源的稀缺性长期制约着模型能力的深入评估。Meta4XNLI的构建巧妙地整合了XNLI和esXNLI两个现有自然语言推理数据集,形成了英语与西班牙语的双语平行语料库。其构建过程采用半自动化与人工校验相结合的多阶段标注策略:首先基于MIPVU隐喻识别准则,利用预训练语言模型进行自动标注;随后通过跨语言标签投影技术将西班牙语标注迁移至英语;最终由语言学专家进行全量人工审查与修正,确保了标注的一致性与可靠性。这种构建方式不仅显著降低了纯人工标注的成本,更通过严谨的流程设计保障了跨语言隐喻标注的平行性与质量。
特点
Meta4XNLI作为首个专为隐喻检测与解释任务设计的跨语言平行数据集,展现出多维度的重要特征。该数据集包含13,320个平行句子,在词汇层面标注了名词、动词、形容词和副词等语义重要词性的隐喻用法,同时在句子层面标注了前提与假设之间的推理关系。其核心优势在于完全基于自然发生的文本,避免了通过词汇替换人为构造隐喻实例可能引入的偏差。数据集支持双向翻译分析(英语→西班牙语,西班牙语→英语),为探究翻译过程中隐喻的保留与流失现象提供了独特视角。此外,其多领域文本来源与平衡的推理标签分布,为全面评估语言模型在真实语境下的隐喻理解能力奠定了坚实基础。
使用方法
Meta4XNLI为隐喻处理研究提供了系统化的评估框架。在隐喻检测任务中,数据集支持序列标注形式的模型训练与评估,可用于单语、多语及零样本跨语言等多种实验设置,探究模型在不同语言间的泛化与迁移能力。在隐喻解释任务中,数据集将隐喻理解置于自然语言推理框架下,通过标注隐喻表达是否对推理关系判定至关重要,使得研究者能够量化分析隐喻对模型推理性能的具体影响。使用者可基于该数据集进行跨领域评估、模型能力对比分析,以及翻译对隐喻可迁移性的深入研究。数据集的公开可用性进一步促进了跨语言隐喻处理研究的可复现性与协作创新。
背景与挑战
背景概述
隐喻作为语言中普遍存在却常被忽视的认知语言学现象,其处理能力是评估语言模型能否捕捉深层语义、语用及文化语境的关键指标。Meta4XNLI数据集由巴斯克大学HiTZ语言技术中心的Elisa Sanchez-Bayona和Rodrigo Agerri于2025年构建,旨在填补多语言隐喻检测与理解资源的空白。该数据集基于已有的XNLI和esXNLI语料,首次为英语和西班牙语平行文本新增了隐喻检测与基于自然语言推理框架的隐喻理解标注。其核心研究问题聚焦于探索语言模型在多语言与跨语言环境中处理隐喻性语言的能力,并通过平行语料分析翻译对隐喻保留与迁移的影响。该资源的发布为隐喻处理、跨语言隐喻可迁移性以及多语言标注资源开发提供了前所未有的研究基础,推动了计算语言学对隐喻这一复杂现象的深入探索。
当前挑战
Meta4XNLI数据集致力于解决自然语言处理中隐喻检测与理解这一核心领域问题,其面临的主要挑战体现在两个方面。在领域问题层面,隐喻检测需要模型准确识别文本中词语的基本义与语境义之间的语义错配,而隐喻理解则要求模型在自然语言推理任务中,能够依据隐喻的字面义推断前提与假设之间的逻辑关系,这对模型的深层语义推理能力构成了严峻考验。在构建过程层面,数据标注面临显著挑战:隐喻标注具有高度主观性,不同标注者之间的一致性难以保证;跨语言平行标注中,隐喻表达可能因翻译过程而丢失或发生转变,导致双语标注不对齐;此外,现有隐喻数据集多集中于英语、规模有限且常依赖词汇替换等非自然方法生成,构建高质量、多语言、自然发生的平行标注语料需要克服数据稀缺与标注标准统一的难题。
常用场景
经典使用场景
在自然语言处理领域,隐喻作为一种普遍存在的语言现象,其自动识别与理解一直是颇具挑战性的研究课题。Meta4XNLI数据集通过整合XNLI和esXNLI的平行语料,并新增英语和西班牙语的隐喻标注,为隐喻检测与解释任务提供了首个跨语言平行资源。该数据集最经典的使用场景在于支持编码器与解码器模型在单语、多语及跨语言设置下,对隐喻性语言进行系统性检测与理解能力评估。研究者可利用其标注的隐喻词元及前提-假设对,设计序列标注与自然语言推理实验,深入探索语言模型处理隐喻的泛化能力与知识迁移机制。
实际应用
该数据集的实际应用价值体现在多个自然语言处理下游任务中。在机器翻译领域,其平行标注有助于分析隐喻在跨语言转换过程中的保留与丢失现象,为提升隐喻翻译质量提供数据支撑。在政治话语分析与仇恨言论检测方面,数据集为识别与理解文本中的隐喻性表达提供了训练与评估资源,有助于深化对意识形态与情感倾向的计算分析。此外,在构建更人性化的人机交互系统时,模型对隐喻的准确处理能力直接影响对话质量,Meta4XNLI为相关模型的开发与优化提供了关键的测试基准。
衍生相关工作
Meta4XNLI的发布催生了一系列围绕跨语言隐喻处理的经典研究工作。在数据集构建方法上,其采用的半自动标注与标签投影策略为后续多语言资源创建提供了技术借鉴。在模型评估方面,基于该数据集开展的实验揭示了掩码语言模型在隐喻检测上优于仅解码器大语言模型的现象,并证实了隐喻表达会对自然语言推理任务性能产生负面影响,这些发现引导了后续研究对模型架构与训练策略的反思。此外,数据集支撑的关于翻译过程中隐喻转移的分析,也激发了针对多语言标注资源开发中翻译效应更深入的探讨。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作