five

ESNLIR

收藏
arXiv2025-03-12 更新2025-03-14 收录
下载链接:
https://zenodo.org/records/15002371
下载链接
链接失效反馈
官方服务:
资源简介:
ESNLIR是一个多语种的西班牙语自然语言推理数据集,特别关注因果关系。该数据集由哥伦比亚安第斯大学创建,包含34个西班牙语语料库,涵盖8种不同写作风格,如文章、书籍、评论、法律文件、临床案例、新闻、演讲和论文。数据集通过自动提取前提-假设对,并进行标签验证来构建,旨在提高模型对各种语义关系的泛化能力。

ESNLIR is a multilingual Spanish natural language inference dataset with a particular focus on causal relationships. It was developed by Universidad de los Andes, Colombia, and contains 34 Spanish-language corpora covering 8 distinct writing styles, including articles, books, reviews, legal documents, clinical cases, news, speeches, and theses. The dataset is constructed via automatic extraction of premise-hypothesis pairs followed by label validation, with the goal of enhancing the generalization ability of models across various semantic relations.
提供机构:
Uniandes(哥伦比亚安第斯大学)
创建时间:
2025-03-12
搜集汇总
数据集介绍
main_image_url
构建方式
ESNLIR数据集的构建方式采用了类似sciNLI的方法,通过在广泛语料库中搜索链接短语,自动提取前提-假设对,并进行简要的标签验证程序以确保数据质量。数据集包含了34个西班牙语语料库,代表8个不同的写作体裁,如文章、书籍、评论、法律文件、临床案例、新闻、演讲和论文。每个语料库都使用相同的方法提取前提-假设对,根据链接短语确定语义关系。为了确保数据集的平衡性,所有语料库的分割都是平衡的,并使用双重分层策略生成分割,以避免分割之间共享对。最后,所有语料库的例子都合并成一个单一的分割,形成一个包含7,325,356个训练例子、127,404个验证例子和128,412个测试例子的数据集。
特点
ESNLIR数据集的特点在于它是一个多体裁的西班牙语自然语言推理数据集,特别考虑了句子之间的因果关系。数据集包含了8种不同的写作体裁,涵盖了各种写作风格和众多主题,有助于提高模型的泛化能力。此外,数据集还包含了一个“推理”标签,以反映科学文本等体裁中常见的因果关系。数据集还经过了人工验证,以确保其质量和准确性。最后,数据集还进行了压力测试,以评估其在不同情况下的鲁棒性。
使用方法
使用ESNLIR数据集的方法包括以下步骤:首先,下载并解压数据集。然后,根据需要选择合适的语料库和分割。接下来,使用选择的模型(如XGBoost、BERTIN或XLMRoBERTa)对数据进行训练和微调。最后,使用准确率和F1分数等指标评估模型的性能。此外,还可以使用数据集中的链接短语来提取句子对,并进行分类。在评估模型时,还可以使用压力测试来评估其在不同情况下的鲁棒性。
背景与挑战
背景概述
自然语言推理(NLI)是自然语言处理(NLP)领域的一个重要研究方向,其核心目标是使机器能够理解和推理文本之间的语义关系。尽管在英语领域已经取得了显著的进展,但在西班牙语领域的研究相对较少。为了填补这一空白,研究人员Johan Rodríguez、Nicolás Perez和Rubén Manrique提出了一个名为ESNLIR的西班牙语多体裁数据集,特别关注句间的因果关系。该数据集的创建旨在促进西班牙语NLI的研究,并提供一个包含多种写作风格和主题的基准,以增强模型的泛化能力。ESNLIR数据集的构建借鉴了sciNLI数据集的方法,通过在大型语料库中搜索连接短语来自动提取前提-假设对,并通过简单的标签验证过程来确保数据质量。该数据集包含了来自八个不同写作体裁的34个西班牙语语料库,涵盖了文章、书籍、评论、法律文件、临床案例、新闻、演讲和论文等多个领域。通过使用BERT家族的模型进行评估,研究结果表明,体裁的丰富性显著提升了模型的泛化能力。
当前挑战
ESNLIR数据集的构建和评估过程中面临着一些挑战。首先,在西班牙语NLI领域的研究相对较少,缺乏大规模的数据集来训练深度学习模型。其次,构建一个多体裁的数据集需要考虑不同体裁之间的差异,以及如何有效地提取和标注前提-假设对。此外,评估模型时需要考虑数据集中的标注人工制品和模型学习到的启发式方法,以确保模型的鲁棒性和泛化能力。最后,由于预算限制,数据集的标注工作仅限于小部分测试集,这可能影响了数据集的整体质量。为了克服这些挑战,研究人员提出了未来的工作方向,包括使用更强大的模型进行评估,对测试集进行更密集的人工标注,以及研究数据集在不同领域和体裁上的泛化能力。
常用场景
经典使用场景
在自然语言处理领域,自然语言推理(NLI)是机器理解文本语义关系的关键技术之一。ESNLIR数据集,作为西班牙语多体裁NLI数据集,特别考虑了因果关系。它的经典使用场景包括训练和评估NLI模型,尤其是那些基于BERT家族的模型,以提升模型在多体裁文本上的泛化能力。
实际应用
ESNLIR数据集的实际应用场景包括信息检索、问答系统和信息抽取。通过理解文本中的因果关系,NLI模型可以帮助计算机更好地理解文本内容,从而提高信息检索的准确性,增强问答系统的回答质量,以及优化信息抽取的效率。
衍生相关工作
ESNLIR数据集的发布推动了西班牙语NLI领域的相关工作。它为研究者提供了一个新的基准,用于评估和改进西班牙语NLI模型。此外,ESNLIR数据集的创建方法也为其他语言和领域的NLI数据集的构建提供了参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作