five

mteb/IndicSentiment

收藏
Hugging Face2025-05-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/IndicSentiment
下载链接
链接失效反馈
官方服务:
资源简介:
一个用于13种印度语言情感分析的多语言、多路并行数据集,涵盖文本分类任务如情感分析、情感评分、情感分类和仇恨言论检测。

A multilingual and n-way parallel dataset for sentiment analysis in 13 Indic languages, covering text classification tasks such as sentiment analysis, sentiment scoring, sentiment classification, and hate-speech detection.
提供机构:
mteb
原始信息汇总

数据集概述

语言支持

  • 数据集支持以下语言:as, bn, hi, kn, mr, ml, or, ta, te, ur

配置详情

  • 默认配置

    • 测试数据路径:test/*.jsonl.gz
    • 训练数据路径:train/*.jsonl.gz
  • 特定语言配置

    • 每个语言配置包含独立的测试和训练数据文件,路径格式为:
      • 测试数据路径:test/{language}.jsonl.gz
      • 训练数据路径:train/{language}.jsonl.gz

数据集内容

  • 描述

    • 数据集名为“Indic Sentiment Analysis”,包含多种Indic语言的评论数据,每条评论带有情感极性标签(正面、负面、中性)。
  • 数据字段

    • CATEGORY: 评论所属的广泛类别。
    • SUB-CATEGORY: 主类别下的子类别。
    • PRODUCT: 被评论的具体产品或服务。
    • BRAND: 与产品或服务相关的品牌。
    • ASPECTS: 产品或服务的不同方面或特征。
    • ASPECT COMBO: 评论中讨论的方面组合。
    • ENGLISH REVIEW: 英文评论文本。
    • LABEL: 评论的情感标签(正面、负面、中性)。
    • INDIC REVIEW: 评论文本翻译成各种Indic语言。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作