five

QCRI/QASR

收藏
Hugging Face2025-10-13 更新2025-10-18 收录
下载链接:
https://hf-mirror.com/datasets/QCRI/QASR
下载链接
链接失效反馈
官方服务:
资源简介:
QASR(QCRI Aljazeera语音资源)是一个大规模的阿拉伯语转录语音语料库,包含约2,000小时的转录语音数据。它覆盖了多种阿拉伯语方言和代码转换语音,具有多层语言学注释。该语料库是为了支持广泛的语音和语言处理研究任务而设计的,数据是轻监督转录并且是基于语言学动机进行分割的。

QASR (QCRI Aljazeera Speech Resource) is a large-scale transcribed Arabic speech corpus containing around 2,000 hours of transcribed speech data. It covers multiple Arabic dialects and code-switching speech, featuring multi-layer linguistic annotations. The corpus is designed to support a wide range of speech and language processing research tasks, with lightly supervised transcriptions and linguistically motivated segmentation.
提供机构:
QCRI
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
QASR是一个由Aljazeera新闻频道广播收集的大规模阿拉伯语语音语料库,包含约2,000小时的转录语音数据,支持多方言和代码转换,适用于自动语音识别、阿拉伯方言识别等多种语音和语言处理研究任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作