five

SICK-NL

收藏
arXiv2021-01-15 更新2024-07-25 收录
下载链接:
https://github.com/gijswijnholds/sick_nl
下载链接
链接失效反馈
官方服务:
资源简介:
SICK-NL是一个针对荷兰语自然语言推理的数据集,由乌特勒支大学的研究团队创建。该数据集通过将英语的SICK数据集翻译成荷兰语而得,包含6059条独特的荷兰语句子。创建过程中采用了半自动翻译方法,确保了句子意义的准确传递。SICK-NL主要用于评估和比较荷兰语和英语的单语及多语NLP模型,特别是在自然语言推理任务上的表现。该数据集的应用领域主要集中在语言处理和推理能力的评估,旨在解决跨语言模型在推理任务上的挑战。

SICK-NL is a Dutch natural language inference dataset developed by a research team from Utrecht University. It is derived by translating the English SICK dataset into Dutch, and contains 6059 unique Dutch sentences. A semi-automatic translation method was adopted during its creation to ensure accurate preservation of sentence meaning. SICK-NL is primarily utilized to evaluate and compare monolingual and multilingual NLP models for both Dutch and English, particularly their performance on natural language inference tasks. Its application scenarios mainly focus on the assessment of language processing and reasoning capabilities, aiming to address the challenges faced by cross-linguistic models in inference tasks.
提供机构:
乌特勒支大学语言与传播学院
创建时间:
2021-01-15
原始信息汇总

SICK-NL 数据集概述

数据集简介

SICK-NL 是一个用于评估荷兰语相关性和蕴含模型的数据集。该数据集是通过半自动翻译 SICK 数据集(Marelli et al., 2014)获得的。此外,还提供了两个基于翻译的压力测试,这些测试处理了语义等价但句法不同的相同句子的表述。

数据集评估

数据集的评估包括对 SICK 和 SICK-NL 以及两个压力测试的自然语言推理任务的评估。评估使用了英语和荷兰语的 BERT、RoBERTa 和多语言 BERT 模型。作为基线,还评估了 SICK 和 SICK-NL 相关性任务的静态嵌入。

相关性结果(Pearson r)

SICK SICK-NL
Skipgram 69.49 Skipgram 56.94
BERT<sub>cls</sub> 50.78 BERTje<sub>cls</sub> 49.06
BERT<sub>avg</sub> 61.36 BERTje<sub>avg</sub> 55.55
RoBERTa<sub>cls</sub> 46.62 RobBERT<sub>cls</sub> 43.93
RoBERTa<sub>avg</sub> 62.71 RobBERT<sub>avg</sub> 52.33

NLI 结果(三分类准确率)

SICK SICK-NL
BERT 87.34 BERTje 83.94
mBERT 87.02 mBERT 84.53
RoBERTa 90.11 RobBERT 82.02
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作