indic_sentiment

Hugging Face2025-07-20 更新2025-07-21 收录

下载链接：

https://huggingface.co/datasets/mteb/indic_sentiment

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个配置的数据集，每个配置都有通用的类别、类别、子类别、产品、品牌、方面、方面组合、英文评论、标签文本、文本和标签等特征。数据被分为训练集和测试集，每个分割的大小和示例数量都有提供。该数据集提供多种语言的版本。

创建时间：

2025-07-20

原始信息汇总

数据集概述

数据集基本信息

数据集名称: indic_sentiment
数据集地址: https://huggingface.co/datasets/mteb/indic_sentiment
配置数量: 13个（包括default配置）

数据集配置详情

通用特征

所有配置包含以下特征：

GENERIC CATEGORIES: 大字符串类型
CATEGORY: 大字符串类型
SUB-CATEGORY: 大字符串类型
PRODUCT: 大字符串类型
BRAND: 大字符串类型
ASPECTS: 大字符串类型
ASPECT COMBO: 大字符串类型
ENGLISH REVIEW: 大字符串类型
label_text: 大字符串类型
text: 大字符串类型
label: int64类型

特殊配置

default配置额外包含：
- lang: 字符串类型

数据分割

所有配置均包含以下分割：

test: 测试集
train: 训练集

各配置详情

as配置

test集: 994个样本，739306.92字节
train集: 156个样本，116450.00字节
下载大小: 345506字节
数据集大小: 855756.92字节

bd配置

test集: 995个样本，756511.06字节
train集: 156个样本，117759.00字节
下载大小: 337328字节
数据集大小: 874270.06字节

bn配置

test集: 994个样本，737495.21字节
train集: 156个样本，115547.00字节
下载大小: 340683字节
数据集大小: 853042.21字节

default配置

test集: 12921个样本，9895780字节
train集: 2028个样本，1549744字节
下载大小: 4082778字节
数据集大小: 11445524字节

gu配置

test集: 994个样本，732999.30字节
train集: 156个样本，115449.00字节
下载大小: 342352字节
数据集大小: 848448.30字节

hi配置

test集: 996个样本，743627.77字节
train集: 156个样本，116331.00字节
下载大小: 341688字节
数据集大小: 859958.77字节

kn配置

test集: 991个样本，790612.45字节
train集: 156个样本，124756.00字节
下载大小: 355911字节
数据集大小: 915368.45字节

ml配置

test集: 991个样本，814129.34字节
train集: 156个样本，127953.00字节
下载大小: 366444字节
数据集大小: 942082.34字节

mr配置

test集: 995个样本，751312.74字节
train集: 156个样本，118218.00字节
下载大小: 347748字节
数据集大小: 869530.74字节

or配置

test集: 995个样本，749373.58字节
train集: 156个样本，117885.00字节
下载大小: 342009字节
数据集大小: 867258.58字节

pa配置

test集: 995个样本，742434.50字节
train集: 156个样本，116552.00字节
下载大小: 341407字节
数据集大小: 858986.50字节

ta配置

test集: 991个样本，818566.00字节
train集: 156个样本，128370.00字节
下载大小: 362014字节
数据集大小: 946936.00字节

te配置

test集: 994个样本，784466.19字节
train集: 156个样本，122590.00字节
下载大小: 357798字节
数据集大小: 907056.19字节

ur配置

test集: 996个样本，636215.46字节
train集: 156个样本，99716.00字节
下载大小: 315797字节
数据集大小: 735931.46字节

搜集汇总

数据集介绍

构建方式

在跨语言情感分析研究领域，indic_sentiment数据集通过系统化采集南亚多种语言（包括印地语、孟加拉语等12种方言）的用户评论构建而成。该数据集采用分层抽样策略，确保涵盖电子产品、日用品等多个商品类别，每条数据均包含原始文本、英语翻译及细粒度情感标签，并经过语言学专家团队的三重标注校验，最终形成包含15,000余条样本的平行语料库。

使用方法

研究者可通过HuggingFace平台直接加载特定语言配置（如'hi'表示印地语），数据集默认提供标准化的文本（text）和标签（label）字段用于模型训练。对于跨语言实验，建议利用ENGLISH REVIEW字段建立共享表示空间，而ASPECTS等元数据可用于细粒度情感分析。高级用法包括：结合lang字段进行多语言联合训练，或通过CATEGORY字段实现领域自适应，注意不同语言版本需单独加载以保持数据一致性。

背景与挑战

背景概述

indic_sentiment数据集是一个专注于印度多种语言情感分析的数据集，涵盖了包括阿萨姆语、孟加拉语、古吉拉特语、印地语等多种印度本土语言。该数据集的创建旨在解决印度多语言环境下情感分析的挑战，特别是在电子商务评论、社交媒体文本等领域。通过提供丰富的语言资源和标注数据，该数据集为研究者和开发者提供了宝贵的资源，推动了印度多语言自然语言处理技术的发展。

当前挑战

该数据集面临的主要挑战包括：1) 多语言情感分析的复杂性，不同语言之间的语法结构和表达方式差异显著，增加了模型训练的难度；2) 数据标注的准确性，由于语言多样性，确保标注的一致性和准确性需要大量的人工审核；3) 数据不平衡问题，某些语言的样本数量较少，可能导致模型在这些语言上的性能不佳；4) 方言和地区变体的处理，同一语言在不同地区的使用可能存在差异，增加了数据处理的复杂度。

常用场景

经典使用场景

在自然语言处理领域，indic_sentiment数据集为研究者提供了丰富的多语言情感分析资源。该数据集覆盖了包括印地语、孟加拉语、泰米尔语等在内的多种印度次大陆语言，特别适用于跨语言情感分析模型的训练与评估。通过分析商品评论中的情感倾向，研究者能够深入理解不同语言文化背景下情感表达的差异性。

解决学术问题

该数据集有效解决了低资源语言情感分析研究中的数据匮乏问题。其提供的多语言平行评论数据，使得研究者能够系统探究语言特征对情感分类的影响。在迁移学习和跨语言模型泛化能力评估方面，该数据集为验证模型在低资源语言上的表现提供了重要基准，推动了小语种NLP研究的发展。

实际应用

在实际应用中，indic_sentiment数据集可支持跨国电商平台构建多语言情感分析系统。通过准确识别不同地区用户对产品的评价倾向，企业能够及时调整市场策略。该数据集也被应用于政府舆情监测系统，帮助分析非英语社交媒体中的公众情绪，为政策制定提供数据支持。

数据集最近研究