mteb/multilingual-sentiment-classification

Name: mteb/multilingual-sentiment-classification
Creator: mteb
Published: 2025-05-04 16:08:11
License: 暂无描述

Hugging Face2025-05-04 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/mteb/multilingual-sentiment-classification

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含30种语言和方言的多语言情感分类数据集，用于情感分类任务，包括正面与负面情感标签。数据集为不同的语言提供了不同的数据文件路径，并且包含了训练、测试和验证数据。

This is a multilingual sentiment classification dataset containing 30 languages and dialects, used for sentiment classification tasks including positive and negative sentiment labels. The dataset provides different data file paths for different languages and includes training, testing, and validation data.

提供机构：

mteb

原始信息汇总

数据集概述

数据集配置

数据集包含多个配置，每个配置对应不同的语言数据文件。每个配置包括训练集、测试集和验证集的文件路径。

数据集文件结构

默认配置：
- 训练集: train/*.parquet
- 测试集: test/*.parquet
- 验证集: validation/*.parquet
特定语言配置：
- 训练集: 如train/vie.parquet, train/eng.parquet等
- 测试集: 如test/vie.parquet, test/eng.parquet等
- 验证集: 如validation/vie.parquet, validation/eng.parquet等

支持的语言

数据集支持多种语言，包括但不限于：

vie (越南语)
eng (英语)
heb (希伯来语)
urd (乌尔都语)
pol (波兰语)
fin (芬兰语)
cmn (普通话)
rus (俄语)
kor (韩语)
fas (波斯语)
eus (巴斯克语)
nor (挪威语)
spa (西班牙语)
ara (阿拉伯语)
uig (维吾尔语)
hin (印地语)
mlt (马耳他语)
jpn (日语)
dza (阿尔及利亚语)
zho (中文)
ind (印尼语)
slk (斯洛伐克语)
bul (保加利亚语)
bam (班巴拉语)
deu (德语)
tur (土耳其语)
ell (希腊语)
tha (泰语)
hrv (克罗地亚语)
cym (威尔士语)

数据集分割

每个语言配置下的数据集均被分割为训练集、测试集和验证集，以支持机器学习模型的训练、测试和验证需求。

5,000+

优质数据集

54 个

任务类型

进入经典数据集