SEACrowd/nusaparagraph_emot

Name: SEACrowd/nusaparagraph_emot
Creator: SEACrowd
Published: 2024-06-24 13:28:53
License: 暂无描述

Hugging Face2024-06-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/nusaparagraph_emot

下载链接

链接失效反馈

官方服务：

资源简介：

Nusaparagraph Emot数据集是一个高质量的人工标注语料库，旨在扩展对印度尼西亚12种低资源语言的支持。该数据集通过母语者撰写的段落来提高词汇多样性和文化相关性，支持情感分类任务，涵盖了6种基本情绪（恐惧、厌恶、悲伤、快乐、愤怒、惊讶）和一种额外情绪标签（羞耻）。数据集的语言包括btk、bew、bug、jav、mad、mak、min、mui、rej、sun等。

提供机构：

SEACrowd

原始信息汇总

数据集概述

语言

btk, bew, bug, jav, mad, mak, min, mui, rej, sun

支持任务

情感分类

数据集使用

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/nusaparagraph_emot", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("nusaparagraph_emot", schema="seacrowd")

检查数据集的所有可用子集（配置名称）

print(sc.available_config_names("nusaparagraph_emot"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集主页

NusaWrites

数据集版本

源版本: 1.0.0
SEACrowd版本: 2024.06.20

数据集许可

Creative Commons Attribution Share-Alike 4.0 International

引用

plaintext @unpublished{anonymous2023nusawrites:,
title={NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages},
author={Anonymous},
journal={OpenReview Preprint},
year={2023},
note={anonymous preprint under review}
}

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and others}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集