mteb/IndicSentiment
收藏Hugging Face2025-05-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/IndicSentiment
下载链接
链接失效反馈官方服务:
资源简介:
一个用于13种印度语言情感分析的多语言、多路并行数据集,涵盖文本分类任务如情感分析、情感评分、情感分类和仇恨言论检测。
A multilingual and n-way parallel dataset for sentiment analysis in 13 Indic languages, covering text classification tasks such as sentiment analysis, sentiment scoring, sentiment classification, and hate-speech detection.
提供机构:
mteb
原始信息汇总
数据集概述
语言支持
- 数据集支持以下语言:as, bn, hi, kn, mr, ml, or, ta, te, ur
配置详情
-
默认配置
- 测试数据路径:
test/*.jsonl.gz - 训练数据路径:
train/*.jsonl.gz
- 测试数据路径:
-
特定语言配置
- 每个语言配置包含独立的测试和训练数据文件,路径格式为:
- 测试数据路径:
test/{language}.jsonl.gz - 训练数据路径:
train/{language}.jsonl.gz
- 测试数据路径:
- 每个语言配置包含独立的测试和训练数据文件,路径格式为:
数据集内容
-
描述
- 数据集名为“Indic Sentiment Analysis”,包含多种Indic语言的评论数据,每条评论带有情感极性标签(正面、负面、中性)。
-
数据字段
- CATEGORY: 评论所属的广泛类别。
- SUB-CATEGORY: 主类别下的子类别。
- PRODUCT: 被评论的具体产品或服务。
- BRAND: 与产品或服务相关的品牌。
- ASPECTS: 产品或服务的不同方面或特征。
- ASPECT COMBO: 评论中讨论的方面组合。
- ENGLISH REVIEW: 英文评论文本。
- LABEL: 评论的情感标签(正面、负面、中性)。
- INDIC REVIEW: 评论文本翻译成各种Indic语言。



