Rock2346/contradictory-watson-nli

Name: Rock2346/contradictory-watson-nli
Creator: Rock2346
Published: 2026-04-25 04:21:04
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/Rock2346/contradictory-watson-nli

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于Kaggle竞赛Contradictory, My Dear Watson，旨在解决多语言自然语言推理（NLI）任务。任务要求根据给定的前提和假设（支持15种语言），预测两者之间的关系：0表示蕴含（假设从前提中得出），1表示中性（假设可能但不一定成立），2表示矛盾（假设与前提矛盾）。数据集包含12,120个训练样本和5,195个测试样本，语言包括阿拉伯语、保加利亚语、中文、英语、法语、德语、希腊语、印地语、俄语、西班牙语、斯瓦希里语、泰语、土耳其语、乌尔都语和越南语。标签分布均衡，约34%为蕴含，32%为中性，34%为矛盾，其中英语样本占训练数据的57%。

This dataset is used for the Kaggle competition Contradictory, My Dear Watson, focusing on multilingual Natural Language Inference (NLI) tasks. The task involves predicting the relationship between a premise and a hypothesis (available in 15 languages): 0 for entailment (hypothesis follows from premise), 1 for neutral (hypothesis is possible but not certain), and 2 for contradiction (hypothesis contradicts premise). The dataset includes 12,120 training samples and 5,195 test samples, covering languages such as Arabic, Bulgarian, Chinese, English, French, German, Greek, Hindi, Russian, Spanish, Swahili, Thai, Turkish, Urdu, and Vietnamese. The label distribution is balanced, with approximately 34% entailment, 32% neutral, and 34% contradiction, and English samples dominate 57% of the training data.

提供机构：

Rock2346

搜集汇总

数据集介绍

构建方式

Contradictory, My Dear Watson 多语言自然语言推理（NLI）数据集的构建源于Kaggle竞赛，旨在解决跨语言文本蕴含关系识别问题。数据集包含12120条训练样本和5195条测试样本，覆盖阿拉伯语、保加利亚语、中文、英语、法语等15种语言。每条样本由前提与假设组成，标注为蕴含（0）、中立（1）或矛盾（2）三类。数据呈现均衡分布，三类标签比例约为34%、32%与34%，但英语样本占比57%，凸显了语言不平衡特性。该数据集通过众包方式收集并经过严格标注审核，为多语言NLI研究提供了标准化评估基准。

特点

该数据集的核心特色在于其多语言覆盖范围与高度均衡的标签分布，为跨语言语义理解研究奠定了坚实基础。数据包含15种语言，涵盖了印欧语系、汉藏语系、尼日尔-刚果语系等多元语系，有效反映了自然语言的多样性。标签分布近乎平衡，避免了类别偏差对模型训练的干扰。尤为重要的是，英语占据主导地位，使得该数据集可用于研究语言间的知识迁移效果。此外，数据集提供了明确的语言标识，便于研究人员分析不同语言上的模型表现差异，从而推动多语言NLI技术的进步。

使用方法

使用该数据集进行多语言NLI模型训练时，推荐采用预训练语言模型mDeBERTa-v3-base-mnli-xnli作为骨干网络，该模型已在MultiNLI与XNLI上微调，具备279M参数容量。典型的训练策略包括直接推理作为基线（约75-80%准确率），再通过五折交叉验证对竞赛数据进行微调，可提升5-10%性能。最终可采用加权集成方式融合基线模型与微调模型预测结果。超参数设置建议学习率2e-5、批次大小16（GPU）、最大序列长度256、权重衰减0.06。需注意mDeBERTa不支持fp16精度，应使用bf16或fp32进行训练。用户可直接使用提供的train.py脚本或Kaggle notebook进行完整训练流程。

背景与挑战

背景概述

“Contradictory, My Dear Watson”多语言自然语言推理数据集诞生于Kaggle竞赛，由全球数据科学社区共同构建，旨在推动跨语言理解研究。该数据集涵盖15种语言，包含约1.2万条训练样本和5千条测试样本，聚焦于前提与假设之间的蕴含、中立和矛盾关系判定。其核心研究问题在于探索多语言环境下自然语言推理的泛化能力，为低资源语言提供可靠的推理基准。该数据集的影响力体现在为多语言NLP模型（如mDeBERTa-v3）提供了统一的评估平台，促进了跨语言语义理解技术的发展，成为迁移学习与多任务学习的重要测试床。

当前挑战

该数据集解决的核心领域挑战是多语言自然语言推理的跨语言泛化问题，现有模型在英语外语言上性能显著下降，尤其在低资源语言（如斯瓦希里语、泰语）中推理准确率不足。构建过程中面临两大挑战：一是数据稀疏性问题，英语样本占比57%导致训练分布严重偏斜；二是标注一致性难题，15种语言的蕴含关系标注需克服文化语境差异和句法结构歧义。此外，模型部署时需权衡推理速度与精度，如mDeBERTa-v3不支持fp16训练，在Kaggle的T4 GPU上只能使用fp32，导致训练效率降低。

常用场景

经典使用场景

在自然语言理解领域，推断前提与假设之间的逻辑关系是机器理解人类语言的核心挑战之一。Contradictory, My Dear Watson数据集的经典用途在于评估和提升多语言场景下的自然语言推理（NLI）能力。研究者利用该数据集提供的涵盖15种语言的对齐文本对，训练模型识别蕴含、中立和矛盾三类关系，从而检验算法在跨语言语义推理中的泛化性能。该任务不仅关注单一语言的准确率，更强调不同语言间逻辑关系的稳定一致性，为构建鲁棒的多语言理解系统提供了标准化测试基准。

衍生相关工作

该数据集衍生出一系列具有影响力的研究工作，其中最经典的是基于跨语言知识蒸馏的轻量级NLI模型，以及引入对比学习策略改进多语言句子表征的工作。例如，MoritzLaurer等人发布的mDeBERTa-v3-base-mnli-xnli模型正是基于该数据集的竞赛背景，通过微调多语言DeBERTa架构并集成XNLI数据，在15种语言上取得了平均80.8%的准确率。此外，该竞赛催生了多种高效的集成训练策略和五折交叉验证方案，成为后续多语言NLI研究中复现和对比的基准范式。

数据集最近研究