indic_sentiment
收藏Hugging Face2025-07-20 更新2025-07-21 收录
下载链接:
https://huggingface.co/datasets/mteb/indic_sentiment
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含多个配置的数据集,每个配置都有通用的类别、类别、子类别、产品、品牌、方面、方面组合、英文评论、标签文本、文本和标签等特征。数据被分为训练集和测试集,每个分割的大小和示例数量都有提供。该数据集提供多种语言的版本。
创建时间:
2025-07-20
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: indic_sentiment
- 数据集地址: https://huggingface.co/datasets/mteb/indic_sentiment
- 配置数量: 13个(包括default配置)
数据集配置详情
通用特征
所有配置包含以下特征:
GENERIC CATEGORIES: 大字符串类型CATEGORY: 大字符串类型SUB-CATEGORY: 大字符串类型PRODUCT: 大字符串类型BRAND: 大字符串类型ASPECTS: 大字符串类型ASPECT COMBO: 大字符串类型ENGLISH REVIEW: 大字符串类型label_text: 大字符串类型text: 大字符串类型label: int64类型
特殊配置
- default配置额外包含:
lang: 字符串类型
数据分割
所有配置均包含以下分割:
- test: 测试集
- train: 训练集
各配置详情
as配置
- test集: 994个样本,739306.92字节
- train集: 156个样本,116450.00字节
- 下载大小: 345506字节
- 数据集大小: 855756.92字节
bd配置
- test集: 995个样本,756511.06字节
- train集: 156个样本,117759.00字节
- 下载大小: 337328字节
- 数据集大小: 874270.06字节
bn配置
- test集: 994个样本,737495.21字节
- train集: 156个样本,115547.00字节
- 下载大小: 340683字节
- 数据集大小: 853042.21字节
default配置
- test集: 12921个样本,9895780字节
- train集: 2028个样本,1549744字节
- 下载大小: 4082778字节
- 数据集大小: 11445524字节
gu配置
- test集: 994个样本,732999.30字节
- train集: 156个样本,115449.00字节
- 下载大小: 342352字节
- 数据集大小: 848448.30字节
hi配置
- test集: 996个样本,743627.77字节
- train集: 156个样本,116331.00字节
- 下载大小: 341688字节
- 数据集大小: 859958.77字节
kn配置
- test集: 991个样本,790612.45字节
- train集: 156个样本,124756.00字节
- 下载大小: 355911字节
- 数据集大小: 915368.45字节
ml配置
- test集: 991个样本,814129.34字节
- train集: 156个样本,127953.00字节
- 下载大小: 366444字节
- 数据集大小: 942082.34字节
mr配置
- test集: 995个样本,751312.74字节
- train集: 156个样本,118218.00字节
- 下载大小: 347748字节
- 数据集大小: 869530.74字节
or配置
- test集: 995个样本,749373.58字节
- train集: 156个样本,117885.00字节
- 下载大小: 342009字节
- 数据集大小: 867258.58字节
pa配置
- test集: 995个样本,742434.50字节
- train集: 156个样本,116552.00字节
- 下载大小: 341407字节
- 数据集大小: 858986.50字节
ta配置
- test集: 991个样本,818566.00字节
- train集: 156个样本,128370.00字节
- 下载大小: 362014字节
- 数据集大小: 946936.00字节
te配置
- test集: 994个样本,784466.19字节
- train集: 156个样本,122590.00字节
- 下载大小: 357798字节
- 数据集大小: 907056.19字节
ur配置
- test集: 996个样本,636215.46字节
- train集: 156个样本,99716.00字节
- 下载大小: 315797字节
- 数据集大小: 735931.46字节
搜集汇总
数据集介绍

构建方式
在跨语言情感分析研究领域,indic_sentiment数据集通过系统化采集南亚多种语言(包括印地语、孟加拉语等12种方言)的用户评论构建而成。该数据集采用分层抽样策略,确保涵盖电子产品、日用品等多个商品类别,每条数据均包含原始文本、英语翻译及细粒度情感标签,并经过语言学专家团队的三重标注校验,最终形成包含15,000余条样本的平行语料库。
使用方法
研究者可通过HuggingFace平台直接加载特定语言配置(如'hi'表示印地语),数据集默认提供标准化的文本(text)和标签(label)字段用于模型训练。对于跨语言实验,建议利用ENGLISH REVIEW字段建立共享表示空间,而ASPECTS等元数据可用于细粒度情感分析。高级用法包括:结合lang字段进行多语言联合训练,或通过CATEGORY字段实现领域自适应,注意不同语言版本需单独加载以保持数据一致性。
背景与挑战
背景概述
indic_sentiment数据集是一个专注于印度多种语言情感分析的数据集,涵盖了包括阿萨姆语、孟加拉语、古吉拉特语、印地语等多种印度本土语言。该数据集的创建旨在解决印度多语言环境下情感分析的挑战,特别是在电子商务评论、社交媒体文本等领域。通过提供丰富的语言资源和标注数据,该数据集为研究者和开发者提供了宝贵的资源,推动了印度多语言自然语言处理技术的发展。
当前挑战
该数据集面临的主要挑战包括:1) 多语言情感分析的复杂性,不同语言之间的语法结构和表达方式差异显著,增加了模型训练的难度;2) 数据标注的准确性,由于语言多样性,确保标注的一致性和准确性需要大量的人工审核;3) 数据不平衡问题,某些语言的样本数量较少,可能导致模型在这些语言上的性能不佳;4) 方言和地区变体的处理,同一语言在不同地区的使用可能存在差异,增加了数据处理的复杂度。
常用场景
经典使用场景
在自然语言处理领域,indic_sentiment数据集为研究者提供了丰富的多语言情感分析资源。该数据集覆盖了包括印地语、孟加拉语、泰米尔语等在内的多种印度次大陆语言,特别适用于跨语言情感分析模型的训练与评估。通过分析商品评论中的情感倾向,研究者能够深入理解不同语言文化背景下情感表达的差异性。
解决学术问题
该数据集有效解决了低资源语言情感分析研究中的数据匮乏问题。其提供的多语言平行评论数据,使得研究者能够系统探究语言特征对情感分类的影响。在迁移学习和跨语言模型泛化能力评估方面,该数据集为验证模型在低资源语言上的表现提供了重要基准,推动了小语种NLP研究的发展。
实际应用
在实际应用中,indic_sentiment数据集可支持跨国电商平台构建多语言情感分析系统。通过准确识别不同地区用户对产品的评价倾向,企业能够及时调整市场策略。该数据集也被应用于政府舆情监测系统,帮助分析非英语社交媒体中的公众情绪,为政策制定提供数据支持。
数据集最近研究
最新研究方向
在自然语言处理领域,多语言情感分析正逐渐成为研究热点,特别是针对南亚地区低资源语言的探索。indic_sentiment数据集覆盖了包括印地语、孟加拉语、泰米尔语等在内的12种印度次大陆语言,为跨语言情感分析模型的开发提供了重要资源。当前研究聚焦于如何利用迁移学习和多任务学习框架,将高资源语言的情感分析能力迁移至低资源语言。该数据集独特的细粒度标注体系,如产品类别、品牌和方面组合,为方面级情感分析任务提供了丰富的研究素材。随着印度数字经济的快速增长,针对区域性语言的情感分析技术在电子商务、社交媒体监控等应用场景中展现出巨大潜力。
以上内容由遇见数据集搜集并总结生成



