five

HausaNLP/AfriSenti-Twitter

收藏
Hugging Face2023-09-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HausaNLP/AfriSenti-Twitter
下载链接
链接失效反馈
官方服务:
资源简介:
AfriSenti是最大的针对非洲语言的情感分析数据集,涵盖了14种非洲语言(包括阿姆哈拉语、阿尔及利亚阿拉伯语、豪萨语、伊博语、基尼亚卢旺达语、摩洛哥阿拉伯语、莫桑比克葡萄牙语、尼日利亚皮钦语、奥罗莫语、斯瓦希里语、提格里尼亚语、特威语、聪加语和约鲁巴语)中的110,000多条标注推文。该数据集用于第一个以非洲为中心的SemEval共享任务,即SemEval 2023任务12:非洲语言的情感分析(AfriSenti-SemEval)。AfriSenti使研究社区能够为各种非洲语言构建情感分析系统,并促进对非洲语言情感和当代语言使用的研究。
提供机构:
HausaNLP
原始信息汇总

数据集概述

数据集名称

  • 名称: AfriSenti
  • 别名: AfriSenti-SemEval

数据集描述

  • 描述: AfriSenti 是针对非洲语言的最大的情感分析数据集,包含超过110,000条标注的推文,涵盖14种非洲语言。
  • 用途: 用于构建和研究非洲语言的情感分析系统,以及分析非洲语言中的情感和现代语言使用情况。

数据集任务

  • 任务: 情感分类、情感强度分析、情绪检测
  • 相关任务: 语义相似性分类、语义相似性评分

数据集语言

  • 语言数量: 14种
  • 具体语言: Amharic, Algerian Arabic, Hausa, Igbo, Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo, Swahili, Tigrinya, Twi, Xitsonga, Yoruba

数据集结构

  • 数据实例: 每个实例包含一条推文和对应的标签。
  • 数据字段:
    • tweet: 字符串类型
    • label: 分类标签,可能的值包括积极、消极和中性

数据集分割

  • 分割: 训练集、验证集、测试集
  • 统计信息: 详细统计信息见README文件中的表格

使用方法

  • 加载数据集: 使用load_dataset函数从Hugging Face Datasets库加载数据集,可以选择特定的语言和分割类型。

许可证

  • 许可证: Creative Commons Attribution 4.0 International License (CC-BY-NC-SA-4.0)

引用信息

  • 引用格式: 见README文件中的引用信息部分

数据集创建者

  • 创建者: 多位语言专家和数据科学家,具体人员名单见README文件中的表格

数据集来源

  • 来源: Twitter

数据集影响

  • 社会影响: 有助于提升非洲语言的情感分析能力,促进对非洲大陆多元视角的理解和分析。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作