five

NbAiLab/mnli-norwegian

收藏
Hugging Face2022-11-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NbAiLab/mnli-norwegian
下载链接
链接失效反馈
官方服务:
资源简介:
MNLI Norwegian数据集是一个多语言的句子相似性和文本分类数据集,包含挪威语和英语的433k句子对,用于自然语言推理和语义相似性分类。该数据集特别适合训练sentence-BERT模型,并提供了多种格式的文件,包括csv和json。数据集的生成使用了Google Translate进行机器翻译,并提供了相应的脚本。
提供机构:
NbAiLab
原始信息汇总

MNLI Norwegian 数据集概述

基本信息

  • 名称: MNLI Norwegian
  • 语言: 包含挪威语(no 和 nob)和英语(en)
  • 语言创建方式: 机器生成和专家生成
  • 许可证: Apache-2.0
  • 多语言性: 多语言
  • 大小: 100K<n<1M

任务与标签

  • 任务类别: 句子相似度、文本分类
  • 任务ID: 自然语言推理、语义相似度分类
  • 标签: 挪威语、SimCSE、MNLI、NLI、句子

数据集内容

  • 数据集版本:
    • mnli_no_en_for_simcse.csv
    • mnli_no_en_small_for_simcse.csv
    • mnli_no_for_simcse.csv
    • multinli_1.0_dev_matched_no_mt.jsonl
    • multinli_1.0_dev_mismatched_no_mt.jsonl
    • multinli_1.0_train_no_mt.jsonl
    • nli_for_simcse.csv
    • xnli_dev_no_mt.jsonl
    • xnli_test_no_mt.jsonl

许可证信息

  • 大部分数据集内容根据OANC许可证发布,允许自由使用、修改和分享。
  • 挪威语部分的翻译和编译根据Creative Commons Attribution 3.0 Unported Licenses发布。

引用信息

  • 数据集由挪威国家图书馆的AiLab编译和机器翻译。

  • 建议同时引用原始工作:

    @InProceedings{N18-1101, author = "Williams, Adina and Nangia, Nikita and Bowman, Samuel", title = "A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference", booktitle = "Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)", year = "2018", publisher = "Association for Computational Linguistics", pages = "1112--1122", location = "New Orleans, Louisiana", url = "http://aclweb.org/anthology/N18-1101" }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作