NbAiLab/mnli-norwegian

Name: NbAiLab/mnli-norwegian
Creator: NbAiLab
Published: 2022-11-23 09:45:12
License: 暂无描述

Hugging Face2022-11-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/NbAiLab/mnli-norwegian

下载链接

链接失效反馈

官方服务：

资源简介：

MNLI Norwegian数据集是一个多语言的句子相似性和文本分类数据集，包含挪威语和英语的433k句子对，用于自然语言推理和语义相似性分类。该数据集特别适合训练sentence-BERT模型，并提供了多种格式的文件，包括csv和json。数据集的生成使用了Google Translate进行机器翻译，并提供了相应的脚本。

提供机构：

NbAiLab

原始信息汇总

MNLI Norwegian 数据集概述

基本信息

名称: MNLI Norwegian
语言: 包含挪威语（no 和 nob）和英语（en）
语言创建方式: 机器生成和专家生成
许可证: Apache-2.0
多语言性: 多语言
大小: 100K<n<1M

任务与标签

任务类别: 句子相似度、文本分类
任务ID: 自然语言推理、语义相似度分类
标签: 挪威语、SimCSE、MNLI、NLI、句子

数据集内容

数据集版本:
- mnli_no_en_for_simcse.csv
- mnli_no_en_small_for_simcse.csv
- mnli_no_for_simcse.csv
- multinli_1.0_dev_matched_no_mt.jsonl
- multinli_1.0_dev_mismatched_no_mt.jsonl
- multinli_1.0_train_no_mt.jsonl
- nli_for_simcse.csv
- xnli_dev_no_mt.jsonl
- xnli_test_no_mt.jsonl

许可证信息

大部分数据集内容根据OANC许可证发布，允许自由使用、修改和分享。
挪威语部分的翻译和编译根据Creative Commons Attribution 3.0 Unported Licenses发布。

引用信息

数据集由挪威国家图书馆的AiLab编译和机器翻译。
建议同时引用原始工作：

@InProceedings{N18-1101, author = "Williams, Adina and Nangia, Nikita and Bowman, Samuel", title = "A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference", booktitle = "Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)", year = "2018", publisher = "Association for Computational Linguistics", pages = "1112--1122", location = "New Orleans, Louisiana", url = "http://aclweb.org/anthology/N18-1101" }

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集