five

SEACrowd/nusaparagraph_emot

收藏
Hugging Face2024-06-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/nusaparagraph_emot
下载链接
链接失效反馈
官方服务:
资源简介:
Nusaparagraph Emot数据集是一个高质量的人工标注语料库,旨在扩展对印度尼西亚12种低资源语言的支持。该数据集通过母语者撰写的段落来提高词汇多样性和文化相关性,支持情感分类任务,涵盖了6种基本情绪(恐惧、厌恶、悲伤、快乐、愤怒、惊讶)和一种额外情绪标签(羞耻)。数据集的语言包括btk、bew、bug、jav、mad、mak、min、mui、rej、sun等。
提供机构:
SEACrowd
原始信息汇总

数据集概述

语言

  • btk, bew, bug, jav, mad, mak, min, mui, rej, sun

支持任务

  • 情感分类

数据集使用

使用 datasets

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/nusaparagraph_emot", trust_remote_code=True)

使用 seacrowd

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("nusaparagraph_emot", schema="seacrowd")

检查数据集的所有可用子集(配置名称)

print(sc.available_config_names("nusaparagraph_emot"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集主页

数据集版本

  • 源版本: 1.0.0
  • SEACrowd版本: 2024.06.20

数据集许可

  • Creative Commons Attribution Share-Alike 4.0 International

引用

plaintext @unpublished{anonymous2023nusawrites:,
title={NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages},
author={Anonymous},
journal={OpenReview Preprint},
year={2023},
note={anonymous preprint under review}
}

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and others}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作