muhammadravi251001/augmented-indo-nli

Name: muhammadravi251001/augmented-indo-nli
Creator: muhammadravi251001
Published: 2023-02-23 15:33:50
License: 暂无描述

Hugging Face2023-02-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/muhammadravi251001/augmented-indo-nli

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于IndoNLI数据集进行增强处理的版本，包含了训练集和开发集。用户可以通过提供的链接下载这些数据，并使用Python代码加载和处理。IndoNLI是一个用于印度尼西亚语的自然语言推理数据集。

提供机构：

muhammadravi251001

原始信息汇总

数据集概述

许可证

bigscience-openrail-m

包含的数据集

indonli

数据文件

translate_train.tar.gz
train.jsonl
dev.jsonl

数据来源

https://github.com/ir-nlp-csui/indonli/tree/main/data

使用方法

python !wget https://huggingface.co/datasets/muhammadravi251001/augmented-indo-nli/raw/main/dev_augmented.jsonl !wget https://huggingface.co/datasets/muhammadravi251001/augmented-indo-nli/resolve/main/train_augmented.jsonl

import pandas as pd data_train_augmented_indonli = pd.read_json(path_or_buf=train.jsonl, lines=True) data_dev_augmented_indonli = pd.read_json(path_or_buf=dev.jsonl, lines=True)

参考文献

@inproceedings{indonli, title = "IndoNLI: A Natural Language Inference Dataset for Indonesian", author = "Mahendra, Rahmad and Aji, Alham Fikri and Louvan, Samuel and Rahman, Fahrurrozi and Vania, Clara", booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021", publisher = "Association for Computational Linguistics", }

5,000+

优质数据集

54 个

任务类型

进入经典数据集