maximoss/rte3-multi

Name: maximoss/rte3-multi
Creator: maximoss
Published: 2024-05-18 17:29:06
License: 暂无描述

Hugging Face2024-05-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/maximoss/rte3-multi

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含RTE-3数据集的手动翻译版本，支持法语、英语、意大利语和德语。与其它版本不同，该数据集中的法语、意大利语和德语版本都标注为三类（蕴含、中立、矛盾），而不是两类（蕴含、不蕴含）。数据集主要用于自然语言推理（NLI）任务，即识别文本蕴含（RTE），这是一个句子对分类任务。数据集的结构包括多个字段，如id、language、premise、hypothesis、label等，并且数据被分为不同的语言和任务类别。

提供机构：

maximoss

原始信息汇总

数据集卡片

数据集描述

数据集概述

该仓库包含RTE-3数据集的所有手动翻译版本，以及原始的英语版本。RTE-3数据集已翻译成意大利语（2012年）、德语（2013年）和法语（2023年）。与其它仓库不同，我们的法语版本以及较早的意大利语和德语版本在这里都标注为3个类别（蕴含、中性、矛盾），而不是2个（蕴含、非蕴含）。

如果只想使用这里提供的特定语言的数据集，可以通过选择您希望的语言列值来过滤数据。

支持的任务和排行榜

该数据集可用于自然语言推理（NLI）任务，也称为识别文本蕴含（RTE），这是一个句子对分类任务。

数据集结构

数据字段

id: 索引号。
language: 相关句子对的语言。
premise: 目标语言中的翻译前提。
hypothesis: 目标语言中的翻译假设。
label: 分类标签，可能的值为0（蕴含）、1（中性）、2（矛盾）。
label_text: 分类标签，可能的值为entailment（0）、neutral（1）、contradiction（2）。
task: 数据所来自的特定NLP任务（信息提取、信息检索、问答和摘要）。
length: 句子对文本的长度。

数据分割

名称	开发集	测试集
所有语言	3200	3200
法语	800	800
德语	800	800
意大利语	800	800
英语	800	800

对于法语RTE-3：

名称	蕴含	中性	矛盾
开发集	412	299	89
测试集	410	318	72

名称	短	长
开发集	665	135
测试集	683	117

名称	IE	IR	QA	SUM
开发集	200	200	200	200
测试集	200	200	200	200

附加信息

引用信息

BibTeX:

BibTeX @inproceedings{skandalis-etal-2024-new-datasets, title = "New Datasets for Automatic Detection of Textual Entailment and of Contradictions between Sentences in {F}rench", author = "Skandalis, Maximos and Moot, Richard and Retor{e}, Christian and Robillard, Simon", editor = "Calzolari, Nicoletta and Kan, Min-Yen and Hoste, Veronique and Lenci, Alessandro and Sakti, Sakriani and Xue, Nianwen", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", month = may, year = "2024", address = "Torino, Italy", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.lrec-main.1065", pages = "12173--12186", abstract = "This paper introduces DACCORD, an original dataset in French for automatic detection of contradictions between sentences. It also presents new, manually translated versions of two datasets, namely the well known dataset RTE3 and the recent dataset GQNLI, from English to French, for the task of natural language inference / recognising textual entailment, which is a sentence-pair classification task. These datasets help increase the admittedly limited number of datasets in French available for these tasks. DACCORD consists of 1034 pairs of sentences and is the first dataset exclusively dedicated to this task and covering among others the topic of the Russian invasion in Ukraine. RTE3-FR contains 800 examples for each of its validation and test subsets, while GQNLI-FR is composed of 300 pairs of sentences and focuses specifically on the use of generalised quantifiers. Our experiments on these datasets show that they are more challenging than the two already existing datasets for the mainstream NLI task in French (XNLI, FraCaS). For languages other than English, most deep learning models for NLI tasks currently have only XNLI available as a training set. Additional datasets, such as ours for French, could permit different training and evaluation strategies, producing more robust results and reducing the inevitable biases present in any single dataset.", }

@inproceedings{giampiccolo-etal-2007-third, title = "The Third {PASCAL} Recognizing Textual Entailment Challenge", author = "Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill", booktitle = "Proceedings of the {ACL}-{PASCAL} Workshop on Textual Entailment and Paraphrasing", month = jun, year = "2007", address = "Prague", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W07-1401", pages = "1--9", }

ACL:

Maximos Skandalis, Richard Moot, Christian Retoré, and Simon Robillard. 2024. New Datasets for Automatic Detection of Textual Entailment and of Contradictions between Sentences in French. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pages 12173–12186, Torino, Italy. ELRA and ICCL.

And

Danilo Giampiccolo, Bernardo Magnini, Ido Dagan, and Bill Dolan. 2007. The Third PASCAL Recognizing Textual Entailment Challenge. In Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing, pages 1–9, Prague. Association for Computational Linguistics.

搜集汇总

数据集介绍

构建方式

在自然语言推理领域，多语言数据资源的稀缺性促使研究者致力于构建跨语言基准测试集。本数据集以经典的RTE-3英语数据集为基础，通过人工翻译的方式将其扩展为涵盖法语、意大利语和德语的多语言版本。构建过程中，翻译工作由专业语言学者执行，确保语义的准确性与文化适配性，同时将原有的二分类标注体系统一调整为蕴含、中性和矛盾的三分类框架，以增强推理任务的细粒度。数据集严格遵循原始数据的结构，保留了前提与假设的句对关系，并新增语言标识字段，便于按需筛选。

特点

作为多语言自然语言推理领域的重要资源，该数据集最显著的特征在于其语言多样性与标注一致性。它囊括了英语、法语、意大利语和德语四种语言，每种语言均包含1600个句对，划分为均衡的开发集与测试集。与同类数据集相比，其标注体系采用统一的三分类标准，避免了二分类简化可能造成的信息损失，更能反映语义关系的复杂性。数据集中还标注了句对来源的任务类型与文本长度，为研究语言特性与任务差异的交互影响提供了结构化信息。

使用方法

该数据集适用于自然语言推理任务的模型训练、跨语言性能评估以及多语言语义表示研究。使用者可通过HuggingFace平台直接加载，并利用语言字段筛选特定语种数据以进行单语言分析。对于多语言联合实验，数据集支持整体加载，便于考察模型在跨语言场景下的泛化能力。在预处理阶段，建议依据任务类型或文本长度字段进行子集划分，以探究不同领域或复杂度下的模型表现。评估时，可参照标准分类指标，并注意比较不同语言版本间性能的一致性，以揭示语言迁移中的潜在规律。

背景与挑战

背景概述

在自然语言处理领域，文本蕴含识别作为一项核心语义理解任务，旨在判断两个文本片段之间的逻辑关系。RTE-3数据集最初由PASCAL挑战赛于2007年推出，由Danilo Giampiccolo、Bernardo Magnini等学者构建，专注于英语语境下的蕴含关系判定。随着多语言研究的深入，Maximos Skandalis等人于2024年扩展了这一资源，推出了包含法语、意大利语、德语及英语的多语言版本RTE-3，显著丰富了非英语语言的语义推理数据，为跨语言模型评估提供了重要基准。该数据集不仅延续了原始版本在信息抽取、问答等任务上的多样性，还通过人工翻译确保了语言质量的可靠性，推动了语义理解技术的全球化发展。

当前挑战

文本蕴含识别任务本身面临语义微妙性与语境依赖性的挑战，例如区分‘中立’与‘矛盾’关系需模型捕捉深层次逻辑推理，而多语言场景更引入了文化差异与语言结构异构性，加剧了模型泛化难度。在数据集构建过程中，核心挑战在于保持翻译的语义忠实度与标注一致性，原始英语数据中的细微逻辑在转化为法语、德语等语言时，需避免因直译导致的语义失真；同时，统一多语言版本的三类标注体系（蕴含、中立、矛盾）要求跨语言标注者协同，确保标签定义在语言间具有可比性，这对资源有限的小语种尤为艰巨。

常用场景

经典使用场景

在自然语言处理领域，文本蕴含识别作为语义理解的核心任务，旨在判断前提句与假设句之间的逻辑关系。maximoss/rte3-multi数据集以其多语言特性，为研究者提供了跨语言文本蕴含分析的基准平台。该数据集经典地应用于训练和评估多语言自然语言推理模型，通过涵盖英语、法语、意大利语和德语的句子对，支持模型在多种语言环境下进行蕴含、中立和矛盾三类关系的分类，从而推动跨语言语义一致性研究的发展。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作。例如，基于其法语版本的研究提出了DACCORD数据集，专注于句子间矛盾检测，进一步丰富了法语自然语言推理资源。同时，该数据集常与XNLI等跨语言基准结合，用于评估像mBERT、XLM-R等预训练模型的多语言推理能力。这些工作不仅拓展了文本蕴含任务的边界，还推动了跨语言迁移学习方法的创新，为后续多语言语义建模提供了重要参考。

数据集最近研究