WOGLI

github2023-12-12 更新2024-05-31 收录

下载链接：

https://github.com/ireinig/wogli

下载链接

链接失效反馈

官方服务：

资源简介：

WOGLI是一个针对德语词序的自然语言推理数据集，每个前提都有相应的蕴含和非蕴含假设，且仅在词序和必要的形态变化上有所不同。该数据集用于评估和提升德语NLI系统的性能。

WOGLI is a natural language inference dataset specifically designed for German word order. Each premise is accompanied by corresponding entailment and non-entailment hypotheses, which differ only in word order and necessary morphological changes. This dataset is utilized to evaluate and enhance the performance of German NLI systems.

创建时间：

2023-03-17

原始信息汇总

数据集概述

数据集名称

WOGLI (Word Order in German Language Inference)

数据集内容

主要数据集: dataset/wogli.csv
泛化数据集: dataset/generalization/ 包含以下四个子集：
- WOGLI-p-subject
- WOGLI-dative
- WOGLI-ditransitive
- WOGLI-OS-hard (NE)

数据集格式

所有数据集均以表格格式提供，位于压缩文件 dataset.zip 中。

数据集标签定义

1: 非蕴涵
2: 蕴涵

数据集加密

数据集已加密，加密密钥为: dofwym-coqjo6-ryhkYm

补充材料

动词和名词列表位于 supplementary-material/ 文件夹中。

许可协议

本数据集遵循 Creative Commons Attribution-NoDerivatives 4.0 International License。

搜集汇总

数据集介绍

构建方式

WOGLI数据集的构建旨在探究自然语言推理（NLI）系统对德语词序的处理能力。该数据集通过创建对抗性样本，确保每个前提句子都有一个蕴含和一个非蕴含的假设句子。前提与假设之间仅通过词序和必要的形态变化（如格和数的标记）进行区分，且所有句子包含相同的词干。这种设计使得模型必须依赖形态标记来识别或拒绝蕴含关系，从而有效评估模型对德语词序的敏感性。

特点

WOGLI数据集的特点在于其专注于德语词序的挑战性，尤其是德语的自由词序特性。每个前提句子都配有一个蕴含和一个非蕴含的假设，且前提与假设之间仅通过词序和形态变化进行区分。这种设计使得数据集能够有效测试模型对形态标记的依赖程度。此外，数据集还包含四个泛化子集，分别针对不同的词序现象，进一步扩展了其应用范围。

使用方法

WOGLI数据集以表格形式提供，用户可通过解压`dataset.zip`文件获取。数据集包含主数据集`wogli.csv`以及四个泛化子集，分别位于`generalization/`文件夹中。标签定义为`1`表示非蕴含，`2`表示蕴含。用户可通过引用相关论文使用该数据集，并遵循Creative Commons Attribution-NoDerivatives 4.0 International License的许可协议。

背景与挑战

背景概述

WOGLI数据集由Ines Reinig和Katja Markert于2023年创建，旨在探讨自然语言推理（NLI）系统在处理德语词序时的表现。德语相较于英语具有更为自由的词序结构，这为NLI系统带来了额外的挑战。WOGLI是首个针对德语词序的对抗性NLI数据集，其独特之处在于每个前提都有一个蕴含和一个非蕴含的假设，且前提与假设之间仅通过词序和必要的形态变化来区分。该数据集的构建基于对德语形态标记的深入理解，旨在测试模型在处理复杂语言现象时的能力。WOGLI的发布为德语NLI研究提供了重要的基准，推动了相关领域的发展。

当前挑战

WOGLI数据集的核心挑战在于其对抗性设计，要求模型能够准确识别词序变化对语义的影响。由于德语词序的灵活性，模型需要依赖形态标记来判断蕴含关系，这对现有的NLI系统提出了较高的要求。此外，数据集的构建过程中，研究人员需要确保前提与假设之间的差异仅体现在词序和形态变化上，这要求对德语语法有深入的理解和精确的控制。数据集的加密保护也增加了使用的复杂性，用户需要解密后才能访问数据。这些挑战不仅反映了德语NLI任务的复杂性，也为未来的研究提供了新的方向。

常用场景

经典使用场景

WOGLI数据集主要用于评估自然语言推理（NLI）系统在处理德语词序变化时的表现。由于德语的词序相对自由，NLI系统在处理此类语言现象时面临较大挑战。WOGLI通过提供包含相同词根但词序不同的前提和假设对，要求模型依赖形态标记来判断或拒绝蕴含关系。这一数据集为研究德语NLI系统的性能提供了标准化的测试平台。

衍生相关工作

WOGLI数据集衍生了一系列相关研究，特别是在德语NLI模型的性能改进方面。研究者基于WOGLI提出了多种数据增强方法，并开发了针对特定词序现象的扩展数据集，如WOGLI-p-subject和WOGLI-dative等。这些工作进一步推动了德语自然语言处理领域的发展，为多语言NLI系统的研究提供了重要参考。

数据集最近研究