five

Abdelrahman-Rezk/Arabic_Dialect_Identification

收藏
Hugging Face2022-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Abdelrahman-Rezk/Arabic_Dialect_Identification
下载链接
链接失效反馈
官方服务:
资源简介:
QADI数据集是一个自动收集的推特数据集,涵盖了中东和北非地区18个不同国家的阿拉伯方言。该数据集包含540k条推文,来自2,525个用户,这些用户均匀分布在18个阿拉伯国家。数据集支持多类分类任务,用于识别推文中的国家级别阿拉伯方言。数据集结构包括数据实例、数据字段和数据分割,分为训练集、验证集和测试集。
提供机构:
Abdelrahman-Rezk
原始信息汇总

数据集概述

数据集名称

  • 名称: QADI
  • 全称: Arabic Dialect Identification

数据集描述

  • 摘要: QADI是一个自动收集的推文数据集,涵盖中东和北非地区18个国家的阿拉伯方言。该数据集通过多重过滤,识别属于不同国家的用户,并排除使用现代标准阿拉伯语或包含不当语言的推文。最终数据集包含540,000条推文,来自2,525名均匀分布在18个阿拉伯国家的用户。

支持的任务

  • 任务: 多类分类
  • 评估指标: 使用外在评估,构建有效的国家级别方言识别模型,宏观平均F1分数为51.5%。内在评估显示,随机选取的推文标签准确率为91.5%。

语言

  • 语言: 阿拉伯语

数据集结构

  • 数据实例: 示例包括推文的ID、标签和文本内容。
  • 数据字段: 包括推文ID、18个类别的标签和文本内容。
  • 数据分割: 数据集分为训练集(440,052样本)、验证集(9,164样本)和测试集(8,981样本)。

数据集创建

  • 数据集策划理由: 信息不足
  • 源数据: 信息不足
  • 注释: 信息不足
  • 个人和敏感信息: 信息不足

使用数据的考虑

  • 数据集的社会影响: 信息不足
  • 偏见讨论: 信息不足
  • 其他已知限制: 信息不足

附加信息

  • 数据集策划者: {aabdelali,hmubarak,ysamih,sahassan2,kdarwish}@hbku.edu.qa
  • 许可信息: 信息不足
  • 引用信息: 作者为Abdelali, Ahmed等,标题为"Arabic Dialect Identification in the Wild",发表于2020年5月。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作