HausaNLP/AfriSenti-Twitter
收藏Hugging Face2023-09-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HausaNLP/AfriSenti-Twitter
下载链接
链接失效反馈官方服务:
资源简介:
AfriSenti是最大的针对非洲语言的情感分析数据集,涵盖了14种非洲语言(包括阿姆哈拉语、阿尔及利亚阿拉伯语、豪萨语、伊博语、基尼亚卢旺达语、摩洛哥阿拉伯语、莫桑比克葡萄牙语、尼日利亚皮钦语、奥罗莫语、斯瓦希里语、提格里尼亚语、特威语、聪加语和约鲁巴语)中的110,000多条标注推文。该数据集用于第一个以非洲为中心的SemEval共享任务,即SemEval 2023任务12:非洲语言的情感分析(AfriSenti-SemEval)。AfriSenti使研究社区能够为各种非洲语言构建情感分析系统,并促进对非洲语言情感和当代语言使用的研究。
提供机构:
HausaNLP
原始信息汇总
数据集概述
数据集名称
- 名称: AfriSenti
- 别名: AfriSenti-SemEval
数据集描述
- 描述: AfriSenti 是针对非洲语言的最大的情感分析数据集,包含超过110,000条标注的推文,涵盖14种非洲语言。
- 用途: 用于构建和研究非洲语言的情感分析系统,以及分析非洲语言中的情感和现代语言使用情况。
数据集任务
- 任务: 情感分类、情感强度分析、情绪检测
- 相关任务: 语义相似性分类、语义相似性评分
数据集语言
- 语言数量: 14种
- 具体语言: Amharic, Algerian Arabic, Hausa, Igbo, Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo, Swahili, Tigrinya, Twi, Xitsonga, Yoruba
数据集结构
- 数据实例: 每个实例包含一条推文和对应的标签。
- 数据字段:
- tweet: 字符串类型
- label: 分类标签,可能的值包括积极、消极和中性
数据集分割
- 分割: 训练集、验证集、测试集
- 统计信息: 详细统计信息见README文件中的表格
使用方法
- 加载数据集: 使用
load_dataset函数从Hugging Face Datasets库加载数据集,可以选择特定的语言和分割类型。
许可证
- 许可证: Creative Commons Attribution 4.0 International License (CC-BY-NC-SA-4.0)
引用信息
- 引用格式: 见README文件中的引用信息部分
数据集创建者
- 创建者: 多位语言专家和数据科学家,具体人员名单见README文件中的表格
数据集来源
- 来源: Twitter
数据集影响
- 社会影响: 有助于提升非洲语言的情感分析能力,促进对非洲大陆多元视角的理解和分析。



