QCRI/QASR

Name: QCRI/QASR
Creator: QCRI
Published: 2025-10-13 10:14:57
License: 暂无描述

Hugging Face2025-10-13 更新2025-10-18 收录

下载链接：

https://hf-mirror.com/datasets/QCRI/QASR

下载链接

链接失效反馈

官方服务：

资源简介：

QASR（QCRI Aljazeera语音资源）是一个大规模的阿拉伯语转录语音语料库，包含约2,000小时的转录语音数据。它覆盖了多种阿拉伯语方言和代码转换语音，具有多层语言学注释。该语料库是为了支持广泛的语音和语言处理研究任务而设计的，数据是轻监督转录并且是基于语言学动机进行分割的。

QASR (QCRI Aljazeera Speech Resource) is a large-scale transcribed Arabic speech corpus containing around 2,000 hours of transcribed speech data. It covers multiple Arabic dialects and code-switching speech, featuring multi-layer linguistic annotations. The corpus is designed to support a wide range of speech and language processing research tasks, with lightly supervised transcriptions and linguistically motivated segmentation.

提供机构：

QCRI

搜集汇总

数据集介绍

背景与挑战

背景概述

QASR是一个由Aljazeera新闻频道广播收集的大规模阿拉伯语语音语料库，包含约2,000小时的转录语音数据，支持多方言和代码转换，适用于自动语音识别、阿拉伯方言识别等多种语音和语言处理研究任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集