Casablanca|语言学数据集|阿拉伯语方言数据集
收藏Casablanca 数据集概述
数据集信息
许可证
- 许可证类型: CC BY-NC-ND 4.0
配置信息
Algeria
- 特征:
- audio: 音频
- seg_id: 字符串
- transcription: 字符串
- gender: 字符串
- duration: 浮点数
- 分割:
- validation: 844个样本, 636948361字节
- test: 843个样本, 596602724字节
- 下载大小: 1215310166字节
- 数据集大小: 1233551085字节
Egypt
- 特征:
- audio: 音频
- seg_id: 字符串
- transcription: 字符串
- gender: 字符串
- duration: 浮点数
- 分割:
- validation: 846个样本, 635527273字节
- test: 846个样本, 650820801字节
- 下载大小: 1157255309字节
- 数据集大小: 1286348074字节
Jordan
- 特征:
- audio: 音频
- seg_id: 字符串
- transcription: 字符串
- gender: 字符串
- duration: 浮点数
- 分割:
- validation: 848个样本, 418493582字节
- test: 848个样本, 423762790字节
- 下载大小: 788256254字节
- 数据集大小: 842256372字节
Mauritania
- 特征:
- audio: 音频
- seg_id: 字符串
- transcription: 字符串
- gender: 字符串
- duration: 浮点数
- 分割:
- validation: 953个样本, 624134522字节
- test: 953个样本, 598880731字节
- 下载大小: 1191233989字节
- 数据集大小: 1223015253字节
Morocco
- 特征:
- audio: 音频
- seg_id: 字符串
- transcription: 字符串
- gender: 字符串
- duration: 浮点数
- 分割:
- validation: 1045个样本, 636022167.005字节
- test: 1045个样本, 639302464.46字节
- 下载大小: 1225648114字节
- 数据集大小: 1275324631.4650002字节
Palestine
- 特征:
- audio: 音频
- seg_id: 字符串
- transcription: 字符串
- gender: 字符串
- duration: 浮点数
- 分割:
- validation: 667个样本, 635220732字节
- test: 667个样本, 619623761字节
- 下载大小: 1212707132字节
- 数据集大小: 1254844493字节
UAE
- 特征:
- audio: 音频
- seg_id: 字符串
- transcription: 字符串
- gender: 字符串
- duration: 浮点数
- 分割:
- validation: 813个样本, 648357489字节
- test: 813个样本, 604083281字节
- 下载大小: 1108277578字节
- 数据集大小: 1252440770字节
Yemen
- 特征:
- audio: 音频
- seg_id: 字符串
- transcription: 字符串
- gender: 字符串
- duration: 浮点数
- 分割:
- validation: 803个样本, 656114251字节
- test: 803个样本, 682738357字节
- 下载大小: 1266260015字节
- 数据集大小: 1338852608字节
数据文件
- Algeria:
- validation: Algeria/validation-*
- test: Algeria/test-*
- Egypt:
- validation: Egypt/validation-*
- test: Egypt/test-*
- Jordan:
- validation: Jordan/validation-*
- test: Jordan/test-*
- Mauritania:
- validation: Mauritania/validation-*
- test: Mauritania/test-*
- Morocco:
- validation: Morocco/validation-*
- test: Morocco/test-*
- Palestine:
- validation: Palestine/validation-*
- test: Palestine/test-*
- UAE:
- validation: UAE/validation-*
- test: UAE/test-*
- Yemen:
- validation: Yemen/validation-*
- test: Yemen/test-*
语言
- 阿拉伯语 (ar)
标签
- speech
- arabic
- asr
- speech_recognition
- speech_processing
- dialects
- algeria
- egypt
- jordan
- mauritania
- morocco
- palestine
- uae
- yemen
数据集名称
- casablanca
引用
@article{talafha2024casablanca, title={Casablanca: Data and Models for Multidialectal Arabic Speech Recognition}, author={Talafha, Bashar and Kadaoui, Karima and Magdy, Samar Mohamed and Habiboullah, Mariem and Chafei, Chafei Mohamed and El-Shangiti, Ahmed Oumar and Zayed, Hiba and Alhamouri, Rahaf and Assi, Rwaa and Alraeesi, Aisha and others}, journal={arXiv preprint arXiv:2410.04527}, year={2024} }

CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
UAVDT
UAVDT是一个用于目标检测任务的数据集。
github 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录