five

Casablanca|语言学数据集|阿拉伯语方言数据集

收藏
huggingface2024-11-15 更新2024-12-12 收录
语言学
阿拉伯语方言
下载链接:
https://huggingface.co/datasets/UBC-NLP/Casablanca
下载链接
链接失效反馈
资源简介:
Casablanca数据集是一个大规模的社区驱动项目,旨在收集和转录多方言阿拉伯语数据集。该数据集涵盖了八个方言:阿尔及利亚语、埃及语、阿联酋语、约旦语、毛里塔尼亚语、摩洛哥语、巴勒斯坦语和也门语。数据集包括转录、性别、方言和代码切换的注释。每个方言的数据集分为验证集和测试集,并提供了示例数量和大小。
提供机构:
UBC Deep Learning & NLP Lab
创建时间:
2024-11-12
原始信息汇总

Casablanca 数据集概述

数据集信息

许可证

  • 许可证类型: CC BY-NC-ND 4.0

配置信息

Algeria

  • 特征:
    • audio: 音频
    • seg_id: 字符串
    • transcription: 字符串
    • gender: 字符串
    • duration: 浮点数
  • 分割:
    • validation: 844个样本, 636948361字节
    • test: 843个样本, 596602724字节
  • 下载大小: 1215310166字节
  • 数据集大小: 1233551085字节

Egypt

  • 特征:
    • audio: 音频
    • seg_id: 字符串
    • transcription: 字符串
    • gender: 字符串
    • duration: 浮点数
  • 分割:
    • validation: 846个样本, 635527273字节
    • test: 846个样本, 650820801字节
  • 下载大小: 1157255309字节
  • 数据集大小: 1286348074字节

Jordan

  • 特征:
    • audio: 音频
    • seg_id: 字符串
    • transcription: 字符串
    • gender: 字符串
    • duration: 浮点数
  • 分割:
    • validation: 848个样本, 418493582字节
    • test: 848个样本, 423762790字节
  • 下载大小: 788256254字节
  • 数据集大小: 842256372字节

Mauritania

  • 特征:
    • audio: 音频
    • seg_id: 字符串
    • transcription: 字符串
    • gender: 字符串
    • duration: 浮点数
  • 分割:
    • validation: 953个样本, 624134522字节
    • test: 953个样本, 598880731字节
  • 下载大小: 1191233989字节
  • 数据集大小: 1223015253字节

Morocco

  • 特征:
    • audio: 音频
    • seg_id: 字符串
    • transcription: 字符串
    • gender: 字符串
    • duration: 浮点数
  • 分割:
    • validation: 1045个样本, 636022167.005字节
    • test: 1045个样本, 639302464.46字节
  • 下载大小: 1225648114字节
  • 数据集大小: 1275324631.4650002字节

Palestine

  • 特征:
    • audio: 音频
    • seg_id: 字符串
    • transcription: 字符串
    • gender: 字符串
    • duration: 浮点数
  • 分割:
    • validation: 667个样本, 635220732字节
    • test: 667个样本, 619623761字节
  • 下载大小: 1212707132字节
  • 数据集大小: 1254844493字节

UAE

  • 特征:
    • audio: 音频
    • seg_id: 字符串
    • transcription: 字符串
    • gender: 字符串
    • duration: 浮点数
  • 分割:
    • validation: 813个样本, 648357489字节
    • test: 813个样本, 604083281字节
  • 下载大小: 1108277578字节
  • 数据集大小: 1252440770字节

Yemen

  • 特征:
    • audio: 音频
    • seg_id: 字符串
    • transcription: 字符串
    • gender: 字符串
    • duration: 浮点数
  • 分割:
    • validation: 803个样本, 656114251字节
    • test: 803个样本, 682738357字节
  • 下载大小: 1266260015字节
  • 数据集大小: 1338852608字节

数据文件

  • Algeria:
    • validation: Algeria/validation-*
    • test: Algeria/test-*
  • Egypt:
    • validation: Egypt/validation-*
    • test: Egypt/test-*
  • Jordan:
    • validation: Jordan/validation-*
    • test: Jordan/test-*
  • Mauritania:
    • validation: Mauritania/validation-*
    • test: Mauritania/test-*
  • Morocco:
    • validation: Morocco/validation-*
    • test: Morocco/test-*
  • Palestine:
    • validation: Palestine/validation-*
    • test: Palestine/test-*
  • UAE:
    • validation: UAE/validation-*
    • test: UAE/test-*
  • Yemen:
    • validation: Yemen/validation-*
    • test: Yemen/test-*

语言

  • 阿拉伯语 (ar)

标签

  • speech
  • arabic
  • asr
  • speech_recognition
  • speech_processing
  • dialects
  • algeria
  • egypt
  • jordan
  • mauritania
  • morocco
  • palestine
  • uae
  • yemen

数据集名称

  • casablanca

引用

@article{talafha2024casablanca, title={Casablanca: Data and Models for Multidialectal Arabic Speech Recognition}, author={Talafha, Bashar and Kadaoui, Karima and Magdy, Samar Mohamed and Habiboullah, Mariem and Chafei, Chafei Mohamed and El-Shangiti, Ahmed Oumar and Zayed, Hiba and Alhamouri, Rahaf and Assi, Rwaa and Alraeesi, Aisha and others}, journal={arXiv preprint arXiv:2410.04527}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Casablanca数据集的构建源于对多方言阿拉伯语语音识别的研究需求。该数据集通过社区驱动的方式,广泛收集了来自阿尔及利亚、埃及、约旦、毛里塔尼亚、摩洛哥、巴勒斯坦、阿联酋和也门等八个地区的阿拉伯语方言语音数据。每个样本均包含音频文件、转录文本、性别信息以及音频时长等详细标注。数据集的构建过程严格遵循科学规范,确保了数据的多样性和代表性,为多方言语音识别研究提供了坚实的基础。
特点
Casablanca数据集的特点在于其覆盖了多种阿拉伯语方言,涵盖了从北非到中东的广泛地理区域。每个方言的语音数据均经过精细的转录和标注,包括性别、方言类型以及代码转换等信息。数据集规模庞大,验证集和测试集分别包含数百至上千个样本,音频总时长达到数千小时。这种多维度、多层次的标注方式为语音识别模型的训练和评估提供了丰富的上下文信息,显著提升了模型的泛化能力。
使用方法
Casablanca数据集的使用方法主要围绕多方言阿拉伯语语音识别任务展开。研究人员可以通过加载数据集中的音频文件和对应的转录文本,构建和训练语音识别模型。数据集提供了验证集和测试集,便于模型性能的评估和比较。此外,数据集中的性别和方言标签可用于研究语音识别模型在不同人群和方言中的表现差异。通过结合这些标注信息,研究人员可以进一步探索多方言语音识别中的挑战与解决方案,推动该领域的技术进步。
背景与挑战
背景概述
Casablanca数据集由Bashar Talafha等人于2024年提出,旨在解决阿拉伯语多方言语音识别领域的数据稀缺问题。该数据集涵盖了阿尔及利亚、埃及、约旦、毛里塔尼亚、摩洛哥、巴勒斯坦、阿联酋和也门等八个阿拉伯方言,包含音频、转录文本、性别和时长等多维度标注信息。Casablanca的发布标志着阿拉伯语语音处理领域的一个重要里程碑,为多方言语音识别系统的开发提供了丰富的数据支持,推动了语音技术在阿拉伯语社区的应用与普及。
当前挑战
Casablanca数据集在构建过程中面临多重挑战。阿拉伯语方言的多样性使得数据收集和标注变得复杂,不同方言之间的语音特征和词汇差异显著,增加了数据一致性和准确性的难度。数据集的规模和质量要求高,需要大量的语音样本和精确的转录文本,这对数据采集和标注团队提出了极高的要求。此外,方言间的代码转换现象进一步增加了数据处理的复杂性,如何有效捕捉和处理这些现象成为数据集构建中的一大难题。
常用场景
经典使用场景
Casablanca数据集在阿拉伯语多方言语音识别领域具有广泛的应用。其经典使用场景包括训练和评估多方言阿拉伯语自动语音识别(ASR)系统。通过涵盖阿尔及利亚、埃及、约旦、毛里塔尼亚、摩洛哥、巴勒斯坦、阿联酋和也门等八种方言的语音数据,Casablanca为研究人员提供了一个全面的基准,用于测试和优化ASR模型在不同方言环境下的表现。
衍生相关工作
Casablanca数据集衍生了许多相关经典工作,特别是在多方言语音识别和语音处理领域。基于该数据集,研究人员开发了多种先进的ASR模型,这些模型在处理不同方言时表现出色。此外,Casablanca还激发了关于方言识别、语音合成和语音增强等领域的研究,推动了阿拉伯语语音处理技术的全面发展。这些工作不仅提升了多方言语音识别的准确性,还为其他低资源语言的语音处理研究提供了宝贵的参考。
数据集最近研究
最新研究方向
在语音处理领域,阿拉伯语多方言识别一直是一个具有挑战性的研究方向。Casablanca数据集的推出为这一领域注入了新的活力,其覆盖了阿尔及利亚、埃及、约旦、毛里塔尼亚、摩洛哥、巴勒斯坦、阿联酋和也门等八种阿拉伯方言,并提供了转录、性别、方言和代码转换等多维度标注。这一数据集不仅填补了多方言阿拉伯语语音数据的空白,还为开发更精准的语音识别模型提供了坚实的基础。近年来,基于Casablanca的研究主要集中在多方言语音识别模型的优化、方言间差异的量化分析以及代码转换现象的深入研究。这些研究不仅推动了阿拉伯语语音处理技术的发展,也为全球多语言语音识别系统的构建提供了宝贵的经验和数据支持。Casablanca的发布标志着阿拉伯语多方言语音识别研究进入了一个新的阶段,其影响将深远地推动语音技术的普及与包容性发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录