five

maximoss/rte3-multi

收藏
Hugging Face2024-05-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/maximoss/rte3-multi
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含RTE-3数据集的手动翻译版本,支持法语、英语、意大利语和德语。与其它版本不同,该数据集中的法语、意大利语和德语版本都标注为三类(蕴含、中立、矛盾),而不是两类(蕴含、不蕴含)。数据集主要用于自然语言推理(NLI)任务,即识别文本蕴含(RTE),这是一个句子对分类任务。数据集的结构包括多个字段,如id、language、premise、hypothesis、label等,并且数据被分为不同的语言和任务类别。

该数据集包含RTE-3数据集的手动翻译版本,支持法语、英语、意大利语和德语。与其它版本不同,该数据集中的法语、意大利语和德语版本都标注为三类(蕴含、中立、矛盾),而不是两类(蕴含、不蕴含)。数据集主要用于自然语言推理(NLI)任务,即识别文本蕴含(RTE),这是一个句子对分类任务。数据集的结构包括多个字段,如id、language、premise、hypothesis、label等,并且数据被分为不同的语言和任务类别。
提供机构:
maximoss
原始信息汇总

数据集卡片

数据集描述

数据集概述

该仓库包含RTE-3数据集的所有手动翻译版本,以及原始的英语版本。RTE-3数据集已翻译成意大利语(2012年)、德语(2013年)和法语(2023年)。与其它仓库不同,我们的法语版本以及较早的意大利语和德语版本在这里都标注为3个类别(蕴含、中性、矛盾),而不是2个(蕴含、非蕴含)。

如果只想使用这里提供的特定语言的数据集,可以通过选择您希望的语言列值来过滤数据。

支持的任务和排行榜

该数据集可用于自然语言推理(NLI)任务,也称为识别文本蕴含(RTE),这是一个句子对分类任务。

数据集结构

数据字段

  • id: 索引号。
  • language: 相关句子对的语言。
  • premise: 目标语言中的翻译前提。
  • hypothesis: 目标语言中的翻译假设。
  • label: 分类标签,可能的值为0(蕴含)、1(中性)、2(矛盾)。
  • label_text: 分类标签,可能的值为entailment(0)、neutral(1)、contradiction(2)。
  • task: 数据所来自的特定NLP任务(信息提取、信息检索、问答和摘要)。
  • length: 句子对文本的长度。

数据分割

名称 开发集 测试集
所有语言 3200 3200
法语 800 800
德语 800 800
意大利语 800 800
英语 800 800

对于法语RTE-3:

名称 蕴含 中性 矛盾
开发集 412 299 89
测试集 410 318 72
名称
开发集 665 135
测试集 683 117
名称 IE IR QA SUM
开发集 200 200 200 200
测试集 200 200 200 200

附加信息

引用信息

BibTeX:

BibTeX @inproceedings{skandalis-etal-2024-new-datasets, title = "New Datasets for Automatic Detection of Textual Entailment and of Contradictions between Sentences in {F}rench", author = "Skandalis, Maximos and Moot, Richard and Retor{e}, Christian and Robillard, Simon", editor = "Calzolari, Nicoletta and Kan, Min-Yen and Hoste, Veronique and Lenci, Alessandro and Sakti, Sakriani and Xue, Nianwen", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", month = may, year = "2024", address = "Torino, Italy", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.lrec-main.1065", pages = "12173--12186", abstract = "This paper introduces DACCORD, an original dataset in French for automatic detection of contradictions between sentences. It also presents new, manually translated versions of two datasets, namely the well known dataset RTE3 and the recent dataset GQNLI, from English to French, for the task of natural language inference / recognising textual entailment, which is a sentence-pair classification task. These datasets help increase the admittedly limited number of datasets in French available for these tasks. DACCORD consists of 1034 pairs of sentences and is the first dataset exclusively dedicated to this task and covering among others the topic of the Russian invasion in Ukraine. RTE3-FR contains 800 examples for each of its validation and test subsets, while GQNLI-FR is composed of 300 pairs of sentences and focuses specifically on the use of generalised quantifiers. Our experiments on these datasets show that they are more challenging than the two already existing datasets for the mainstream NLI task in French (XNLI, FraCaS). For languages other than English, most deep learning models for NLI tasks currently have only XNLI available as a training set. Additional datasets, such as ours for French, could permit different training and evaluation strategies, producing more robust results and reducing the inevitable biases present in any single dataset.", }

@inproceedings{giampiccolo-etal-2007-third, title = "The Third {PASCAL} Recognizing Textual Entailment Challenge", author = "Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill", booktitle = "Proceedings of the {ACL}-{PASCAL} Workshop on Textual Entailment and Paraphrasing", month = jun, year = "2007", address = "Prague", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W07-1401", pages = "1--9", }

ACL:

Maximos Skandalis, Richard Moot, Christian Retoré, and Simon Robillard. 2024. New Datasets for Automatic Detection of Textual Entailment and of Contradictions between Sentences in French. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pages 12173–12186, Torino, Italy. ELRA and ICCL.

And

Danilo Giampiccolo, Bernardo Magnini, Ido Dagan, and Bill Dolan. 2007. The Third PASCAL Recognizing Textual Entailment Challenge. In Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing, pages 1–9, Prague. Association for Computational Linguistics.

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言推理领域,多语言数据资源的稀缺性促使研究者致力于构建跨语言基准测试集。本数据集以经典的RTE-3英语数据集为基础,通过人工翻译的方式将其扩展为涵盖法语、意大利语和德语的多语言版本。构建过程中,翻译工作由专业语言学者执行,确保语义的准确性与文化适配性,同时将原有的二分类标注体系统一调整为蕴含、中性和矛盾的三分类框架,以增强推理任务的细粒度。数据集严格遵循原始数据的结构,保留了前提与假设的句对关系,并新增语言标识字段,便于按需筛选。
特点
作为多语言自然语言推理领域的重要资源,该数据集最显著的特征在于其语言多样性与标注一致性。它囊括了英语、法语、意大利语和德语四种语言,每种语言均包含1600个句对,划分为均衡的开发集与测试集。与同类数据集相比,其标注体系采用统一的三分类标准,避免了二分类简化可能造成的信息损失,更能反映语义关系的复杂性。数据集中还标注了句对来源的任务类型与文本长度,为研究语言特性与任务差异的交互影响提供了结构化信息。
使用方法
该数据集适用于自然语言推理任务的模型训练、跨语言性能评估以及多语言语义表示研究。使用者可通过HuggingFace平台直接加载,并利用语言字段筛选特定语种数据以进行单语言分析。对于多语言联合实验,数据集支持整体加载,便于考察模型在跨语言场景下的泛化能力。在预处理阶段,建议依据任务类型或文本长度字段进行子集划分,以探究不同领域或复杂度下的模型表现。评估时,可参照标准分类指标,并注意比较不同语言版本间性能的一致性,以揭示语言迁移中的潜在规律。
背景与挑战
背景概述
在自然语言处理领域,文本蕴含识别作为一项核心语义理解任务,旨在判断两个文本片段之间的逻辑关系。RTE-3数据集最初由PASCAL挑战赛于2007年推出,由Danilo Giampiccolo、Bernardo Magnini等学者构建,专注于英语语境下的蕴含关系判定。随着多语言研究的深入,Maximos Skandalis等人于2024年扩展了这一资源,推出了包含法语、意大利语、德语及英语的多语言版本RTE-3,显著丰富了非英语语言的语义推理数据,为跨语言模型评估提供了重要基准。该数据集不仅延续了原始版本在信息抽取、问答等任务上的多样性,还通过人工翻译确保了语言质量的可靠性,推动了语义理解技术的全球化发展。
当前挑战
文本蕴含识别任务本身面临语义微妙性与语境依赖性的挑战,例如区分‘中立’与‘矛盾’关系需模型捕捉深层次逻辑推理,而多语言场景更引入了文化差异与语言结构异构性,加剧了模型泛化难度。在数据集构建过程中,核心挑战在于保持翻译的语义忠实度与标注一致性,原始英语数据中的细微逻辑在转化为法语、德语等语言时,需避免因直译导致的语义失真;同时,统一多语言版本的三类标注体系(蕴含、中立、矛盾)要求跨语言标注者协同,确保标签定义在语言间具有可比性,这对资源有限的小语种尤为艰巨。
常用场景
经典使用场景
在自然语言处理领域,文本蕴含识别作为语义理解的核心任务,旨在判断前提句与假设句之间的逻辑关系。maximoss/rte3-multi数据集以其多语言特性,为研究者提供了跨语言文本蕴含分析的基准平台。该数据集经典地应用于训练和评估多语言自然语言推理模型,通过涵盖英语、法语、意大利语和德语的句子对,支持模型在多种语言环境下进行蕴含、中立和矛盾三类关系的分类,从而推动跨语言语义一致性研究的发展。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作。例如,基于其法语版本的研究提出了DACCORD数据集,专注于句子间矛盾检测,进一步丰富了法语自然语言推理资源。同时,该数据集常与XNLI等跨语言基准结合,用于评估像mBERT、XLM-R等预训练模型的多语言推理能力。这些工作不仅拓展了文本蕴含任务的边界,还推动了跨语言迁移学习方法的创新,为后续多语言语义建模提供了重要参考。
数据集最近研究
最新研究方向
在自然语言推理领域,多语言数据集的研究正逐渐成为前沿热点。maximoss/rte3-multi数据集通过整合英语、法语、意大利语和德语版本,为跨语言文本蕴含识别提供了统一基准。该数据集的最新研究方向聚焦于多语言模型的鲁棒性评估与迁移学习策略,尤其在低资源语言如法语的自动矛盾检测任务中展现出挑战性。随着全球多语言人工智能应用的兴起,此类数据集推动了跨语言语义理解技术的进步,有助于减少单一数据集的偏差,提升模型在多样化语境下的泛化能力。相关研究在2024年LREC-COLING会议上得到探讨,强调了多语言数据资源对自然语言处理系统公平性与可扩展性的重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作