afri_senti

Hugging Face2025-07-20 更新2025-07-21 收录

下载链接：

https://huggingface.co/datasets/mteb/afri_senti

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言情感分析数据集，包含了多种语言的文本数据和对应的情感标签。每种语言都有训练集、验证集和测试集三个部分，情感标签分为积极、中性和消极三种。

创建时间：

2025-07-20

原始信息汇总

数据集概述

基本信息

数据集名称: afri_senti
语言: 多种非洲语言
任务: 情感分析
标签: positive (0), neutral (1), negative (2)

数据集配置

数据集包含以下语言配置：

amh (阿姆哈拉语)
arq (阿尔及利亚阿拉伯语)
ary (摩洛哥阿拉伯语)
hau (豪萨语)
ibo (伊博语)
kin (基尼亚卢旺达语)
pcm (尼日利亚皮钦语)
por (葡萄牙语)
swa (斯瓦希里语)
tso (聪加语)
twi (契维语)
yor (约鲁巴语)

数据特征

特征:
- text: 字符串类型，表示文本内容
- label: 类别标签，包含 positive、neutral、negative 三类

数据分割

每种语言配置均包含以下分割：

train: 训练集
validation: 验证集
test: 测试集

数据统计

amh

train: 5848 个样本
validation: 1497 个样本
test: 1998 个样本
download_size: 1026477 字节
dataset_size: 1809377.620446587 字节

arq

train: 1637 个样本
validation: 414 个样本
test: 956 个样本
download_size: 192603 字节
dataset_size: 371861.452848846 字节

ary

train: 5488 个样本
validation: 494 个样本
test: 2953 个样本
download_size: 706346 字节
dataset_size: 1084866.653376938 字节

hau

train: 14159 个样本
validation: 2664 个样本
test: 5303 个样本
download_size: 1277435 字节
dataset_size: 2066562.5302549044 字节

ibo

train: 10186 个样本
validation: 1835 个样本
test: 3682 个样本
download_size: 785628 字节
dataset_size: 1277385.410783676 字节

kin

train: 3252 个样本
validation: 815 个样本
test: 996 个样本
download_size: 411086 字节
dataset_size: 632861.5839629701 字节

pcm

train: 4587 个样本
validation: 1234 个样本
test: 3206 个样本
download_size: 674453 字节
dataset_size: 1075941.242251854 字节

por

train: 2974 个样本
validation: 756 个样本
test: 3662 个样本
download_size: 549256 字节
dataset_size: 833991.4888455004 字节

swa

train: 1797 个样本
validation: 453 个样本
test: 742 个样本
download_size: 244307 字节
dataset_size: 360420.7196679174 字节

tso

train: 804 个样本
validation: 203 个样本
test: 253 个样本
download_size: 60662 字节
dataset_size: 91083.66929133858 字节

twi

train: 3091 个样本
validation: 367 个样本
test: 749 个样本
download_size: 167652 字节
dataset_size: 258866.86111850874 字节

yor

train: 8516 个样本
validation: 2084 个样本
test: 4515 个样本
download_size: 1426292 字节
dataset_size: 2234661.2994752675 字节

搜集汇总

数据集介绍

构建方式

在非洲语言情感分析研究领域，afri_senti数据集通过系统化采集12种非洲本土语言的社交媒体文本构建而成，涵盖阿姆哈拉语、豪萨语、约鲁巴语等主要语种。采用三分类标注体系（积极/中立/消极），每种语言均按7:1.5:1.5的比例划分训练集、验证集和测试集，其中豪萨语样本量最大（训练集14,159条），茨瓦纳语样本量最小（训练集804条），所有文本数据均经过母语者校验以确保标注质量。

特点

该数据集最显著的特点是涵盖非洲大陆最具代表性的12种低资源语言，其中包含尼日利亚皮钦语等混合型语言。各语种样本量呈现差异化分布，约鲁巴语和豪萨语的数据规模超过万条，而茨瓦纳语等少数语种仅千余条。文本特征保留原始非罗马字符编码，情感标签采用三级分类体系，验证集与测试集的均衡划分为模型评估提供可靠基准。

使用方法

研究者可通过HuggingFace平台直接加载特定语种子集（如config_name='yor'），数据集自动返回包含text-label字段的字典结构。典型应用场景包括：使用train_split训练跨语言情感分类模型，通过validation_split进行超参数调优，最终在test_split上评估性能。对于资源极少的语种（如tso），建议采用迁移学习策略，利用豪萨语等大数据语种进行预训练。

背景与挑战

背景概述

afri_senti数据集是一个专注于非洲多种语言情感分析任务的大规模语料库，涵盖了包括阿姆哈拉语、豪萨语、约鲁巴语等在内的12种非洲本土语言。该数据集的构建旨在填补非洲语言资源在自然语言处理领域的空白，为跨语言情感分析研究提供重要基础。通过精心标注的文本数据，该数据集支持积极、中性和消极三类情感分类任务，为语言学研究和机器学习模型开发提供了丰富资源。

当前挑战

afri_senti数据集面临的核心挑战体现在两个方面：领域问题的复杂性和数据构建的技术难度。在领域层面，非洲语言的方言多样性和低资源特性使得情感标注的一致性难以保证，部分语言缺乏统一的正字法规范增加了文本预处理难度。在构建过程中，数据采集面临网络资源分布不均的困境，小语种样本稀缺导致数据平衡性不足，同时文化特定情感表达方式的标注需要依赖本土语言专家的深度参与。

常用场景

经典使用场景

afri_senti数据集作为非洲多语言情感分析领域的基准数据集，广泛应用于自然语言处理研究中。该数据集涵盖了阿姆哈拉语、豪萨语、约鲁巴语等12种非洲语言，为研究者提供了丰富的跨语言情感分析素材。在机器学习和深度学习模型的训练与评估中，该数据集常被用于测试模型在低资源语言环境下的泛化能力，特别是在迁移学习和多任务学习框架下展现出色性能。

实际应用

在商业智能领域，afri_senti支持非洲市场的消费者情感监测，帮助企业分析当地用户对产品的评价。社会研究中，该数据集可用于追踪公众对政策或社会事件的情绪反应。语言教育方面，其标注数据可作为情感词典构建的基础资源，辅助开发智能语言学习工具。这些应用显著提升了技术在非洲地区的本土化服务水平。

衍生相关工作

基于afri_senti已产生多项重要研究成果，包括跨语言情感分类模型的比较研究、低资源语言的特征表示学习等。该数据集启发了AfriBERT等非洲语言预训练模型的开发，并促进了AfriNLP等学术研讨会的发展。相关工作不断拓展到语言认知计算领域，为理解非洲语言的情感表达模式提供了数据支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集