five

evageon/IADD

收藏
Hugging Face2022-01-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/evageon/IADD
下载链接
链接失效反馈
官方服务:
资源简介:
IADD是一个用于阿拉伯方言识别的集成数据集,包含136,317条文本,代表5个地区(马格里布、黎凡特、埃及、伊拉克和海湾)和9个国家(阿尔及利亚、摩洛哥、突尼斯、巴勒斯坦、约旦、叙利亚、黎巴嫩、埃及和伊拉克)。数据集由五个子集(DART、SHAMI、TSAC、PADIC和AOC)组合而成,每个子集都有详细的来源和内容描述。数据集以JSON格式存储,包含句子、地区、国家和数据源等关键信息。
提供机构:
evageon
原始信息汇总

数据集概述

数据集名称

IADD - Integrated Dataset for Arabic Dialect iDentification Dataset

数据集内容

  • 文本数量: 136,317
  • 代表地区: 5个(Maghrebi (MGH), Levantine (LEV), Egypt (EGY), Iraq (IRQ), Gulf (GLF))
  • 代表国家: 9个(Algeria, Morocco, Tunisia, Palestine, Jordan, Syria, Lebanon, Egypt, Iraq)

数据集来源

IADD由以下五个子数据集组合而成:

  • DART: 约25,000条通过众包标注的阿拉伯语推文。
  • SHAMI: 包含117,805个句子,覆盖巴勒斯坦、约旦、黎巴嫩和叙利亚的黎凡特方言。
  • TSAC: 17,000条主要从突尼斯Facebook页面收集的突尼斯方言评论。
  • PADIC: 由录音转录或从标准阿拉伯语翻译而来的句子组成的平行阿拉伯方言语料库。
  • AOC: 基于三家阿拉伯报纸在线版本的读者评论,包含1.4M条评论。

数据集格式

  • 存储格式: JSON-like
  • 键值说明:
    • Sentence: 包含文本/句子。
    • Region: 存储对应的方言区域。
    • Country: 指定对应的国家(如果可用)。
    • DataSource: 指示数据的来源。

许可证

CC-BY-4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作