five

mteb/multilingual-sentiment-classification

收藏
Hugging Face2025-05-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/multilingual-sentiment-classification
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含30种语言和方言的多语言情感分类数据集,用于情感分类任务,包括正面与负面情感标签。数据集为不同的语言提供了不同的数据文件路径,并且包含了训练、测试和验证数据。

This is a multilingual sentiment classification dataset containing 30 languages and dialects, used for sentiment classification tasks including positive and negative sentiment labels. The dataset provides different data file paths for different languages and includes training, testing, and validation data.
提供机构:
mteb
原始信息汇总

数据集概述

数据集配置

数据集包含多个配置,每个配置对应不同的语言数据文件。每个配置包括训练集、测试集和验证集的文件路径。

数据集文件结构

  • 默认配置

    • 训练集: train/*.parquet
    • 测试集: test/*.parquet
    • 验证集: validation/*.parquet
  • 特定语言配置

    • 训练集: 如train/vie.parquet, train/eng.parquet
    • 测试集: 如test/vie.parquet, test/eng.parquet
    • 验证集: 如validation/vie.parquet, validation/eng.parquet

支持的语言

数据集支持多种语言,包括但不限于:

  • vie (越南语)
  • eng (英语)
  • heb (希伯来语)
  • urd (乌尔都语)
  • pol (波兰语)
  • fin (芬兰语)
  • cmn (普通话)
  • rus (俄语)
  • kor (韩语)
  • fas (波斯语)
  • eus (巴斯克语)
  • nor (挪威语)
  • spa (西班牙语)
  • ara (阿拉伯语)
  • uig (维吾尔语)
  • hin (印地语)
  • mlt (马耳他语)
  • jpn (日语)
  • dza (阿尔及利亚语)
  • zho (中文)
  • ind (印尼语)
  • slk (斯洛伐克语)
  • bul (保加利亚语)
  • bam (班巴拉语)
  • deu (德语)
  • tur (土耳其语)
  • ell (希腊语)
  • tha (泰语)
  • hrv (克罗地亚语)
  • cym (威尔士语)

数据集分割

每个语言配置下的数据集均被分割为训练集、测试集和验证集,以支持机器学习模型的训练、测试和验证需求。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作