mteb/IndicSentiment

Name: mteb/IndicSentiment
Creator: mteb
Published: 2025-05-04 16:08:00
License: 暂无描述

Hugging Face2025-05-04 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/mteb/IndicSentiment

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于13种印度语言情感分析的多语言、多路并行数据集，涵盖文本分类任务如情感分析、情感评分、情感分类和仇恨言论检测。

A multilingual and n-way parallel dataset for sentiment analysis in 13 Indic languages, covering text classification tasks such as sentiment analysis, sentiment scoring, sentiment classification, and hate-speech detection.

提供机构：

mteb

原始信息汇总

数据集概述

语言支持

数据集支持以下语言：as, bn, hi, kn, mr, ml, or, ta, te, ur

配置详情

默认配置
- 测试数据路径：test/*.jsonl.gz
- 训练数据路径：train/*.jsonl.gz
特定语言配置
- 每个语言配置包含独立的测试和训练数据文件，路径格式为：
  - 测试数据路径：test/{language}.jsonl.gz
  - 训练数据路径：train/{language}.jsonl.gz

数据集内容

描述
- 数据集名为“Indic Sentiment Analysis”，包含多种Indic语言的评论数据，每条评论带有情感极性标签（正面、负面、中性）。
数据字段
- CATEGORY: 评论所属的广泛类别。
- SUB-CATEGORY: 主类别下的子类别。
- PRODUCT: 被评论的具体产品或服务。
- BRAND: 与产品或服务相关的品牌。
- ASPECTS: 产品或服务的不同方面或特征。
- ASPECT COMBO: 评论中讨论的方面组合。
- ENGLISH REVIEW: 英文评论文本。
- LABEL: 评论的情感标签（正面、负面、中性）。
- INDIC REVIEW: 评论文本翻译成各种Indic语言。

5,000+

优质数据集

54 个

任务类型

进入经典数据集