LeWiDi-2025

Name: LeWiDi-2025
Creator: Fondazione Bruno Kessler, LMU Munich &MCML, Universit`a Milano Bicocca, Universit`a di Torino, University of Gothenburg, Queen Mary University of London, Utrecht University
Published: 2025-10-10 01:04:28
License: 暂无描述

arXiv2025-10-10 更新2025-10-11 收录

下载链接：

https://www.codabench.org/competitions/7192/

下载链接

链接失效反馈

官方服务：

资源简介：

LeWiDi-2025数据集是一个用于训练和评估自然语言处理模型的资源，它包含了四个数据集，分别是：Conversational Sarcasm Corpus (CSC)、MultiPICo dataset (MP)、VariErr NLI dataset (VEN)和Paraphrase Detection dataset (Par)。这些数据集覆盖了自然语言处理的多个领域，包括讽刺检测、自然语言推理、释义检测等，并且包含了多个语言的标注数据。数据集采用了不同的标注方案，包括类别标签和序数标签，旨在帮助模型学习人类判断中的差异和变化。此外，LeWiDi-2025还引入了两种互补的评价范式：软标签预测和视角主义预测，以及新的评价指标，以更好地评估模型处理差异的能力。

The LeWiDi-2025 dataset is a curated resource for training and evaluating natural language processing (NLP) models. It encompasses four constituent datasets: the Conversational Sarcasm Corpus (CSC), MultiPICo dataset (MP), VariErr Natural Language Inference (NLI) dataset (VEN), and Paraphrase Detection dataset (Par). These datasets cover multiple NLP subfields, including sarcasm detection, natural language inference, paraphrase detection, and more, and feature annotated data across multiple languages. Adopting diverse annotation schemas including categorical labels and ordinal labels, the dataset is designed to assist models in learning the discrepancies and variations inherent in human judgments. Additionally, LeWiDi-2025 introduces two complementary evaluation paradigms: soft label prediction and perspectivist prediction, alongside novel evaluation metrics to better gauge models' capabilities in handling such variations.

提供机构：

Fondazione Bruno Kessler, LMU Munich &MCML, Universit`a Milano Bicocca, Universit`a di Torino, University of Gothenburg, Queen Mary University of London, Utrecht University

创建时间：

2025-10-10

搜集汇总

数据集介绍

构建方式

LeWiDi-2025数据集通过整合四个异构的文本理解任务构建而成，涵盖反讽检测、多语言讽刺识别、自然语言推理和复述判别。每个任务均采用众包标注策略，保留个体标注者的原始判断与分歧信息：CSC数据集收集了说话者与外部观察者对语境-回复对的六级李克特量表评分；MP数据集通过跨11种语言的社交媒体文本获取二元讽刺标签；VEN与Par数据集则要求四位标注者提供多标签分类结果及文字解释，并记录其社会人口学属性。所有数据均以统一的JSON格式发布，确保标注分布与元数据的结构化存储。

使用方法

数据集支持双任务评估框架：任务A要求模型预测群体层面的标签概率分布，采用曼哈顿距离与Wasserstein距离衡量软标签预测质量；任务B需建模特定标注者的个体判断，通过错误率与归一化绝对距离评估预测一致性。使用者可基于统一数据格式开发跨任务通用模型，或针对单数据集优化标注者行为建模。数据划分为训练、开发与测试集，测试阶段隐藏真实标签以模拟实际应用场景。模型可融合标注者历史行为、人口属性及文本解释等特征，探索分歧感知技术的泛化能力。

背景与挑战

背景概述

LeWiDi-2025数据集作为第三届'学习与分歧'共享任务的核心资源，由国际多机构研究团队于2025年联合构建。该数据集延续了前两届任务的核心理念，旨在推动人工智能模型对人工标注变异性的认知与建模能力。研究团队认识到自然语言处理任务中主观判断的固有分歧性，传统基于单一标准答案的评估范式已无法满足现实需求。数据集涵盖反讽检测、讽刺识别、自然语言推理和复述检测四大任务，创新性地引入序数标注和分类标注并行的标注体系，为分歧感知技术的研究提供了标准化测试平台。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决主观性自然语言任务中标注分歧的建模难题，包括如何准确预测群体层面的标注分布（软标签方法）和个体标注者的标注行为（视角主义方法）；在构建过程中，需协调多语言标注数据的质量控制，处理序数尺度与分类标注的异构评估，以及设计能够公平比较多类别、多标签和序数标注场景的新型评估指标。此外，数据集的测试集仅包含训练阶段已见的标注者，尚未验证模型对未知标注者的泛化能力，这在实际应用中构成重要限制。

常用场景

经典使用场景

在自然语言处理领域，LeWiDi-2025数据集作为第三届学习与分歧共享任务的核心基准，主要应用于建模人类标注者之间的意见分歧。该数据集整合了四个涵盖反讽检测、讽刺识别、自然语言推理和复述检测的子任务，通过软标签预测和视角主义预测两种范式，为研究者提供了统一评估分歧感知系统的框架。其经典使用场景包括训练AI模型识别和适应人类主观判断的多样性，推动自然语言理解系统从追求单一标准答案转向包容多元解释。

解决学术问题

该数据集有效解决了传统NLP模型忽视人类标注分歧的学术难题。通过提供包含分类判断和序数判断的标注方案，LeWiDi-2025突破了传统聚合标注方法的局限，使研究者能够深入探索标注变异性的本质。其创新性评估指标如曼哈顿距离和瓦瑟斯坦距离，为多类别和多标签场景下的模型性能评估提供了更科学的度量标准，推动了主观性NLP任务中数据建模与评估方法的理论创新。

实际应用

在实际应用层面，LeWiDi-2025为开发能够理解人类主观差异的智能系统提供了关键支撑。在社交媒体内容审核领域，该数据集帮助构建更精准的讽刺和反讽检测模型；在智能客服系统中，其复述检测能力可提升对话理解的鲁棒性；在法律文本分析和医疗诊断辅助等高风险场景，模型对标注分歧的敏感性有助于识别边缘案例和潜在争议。这些应用显著提升了AI系统在真实世界复杂语境下的实用性和可靠性。

数据集最近研究