five

Ar-DAD: Arabic Diversified Audio Dataset

收藏
DataCite Commons2025-05-01 更新2025-05-17 收录
下载链接:
https://data.mendeley.com/datasets/3kndp5vs6b
下载链接
链接失效反馈
官方服务:
资源简介:
This is the only available audio library covering this large number of reciters and verses in one harmonized structure that can be used by concerned researchers in different directions. The audio files are organized into two main datasets. Reciters are put into 37 folders created per chapter (78- 114), within each chapter, subfolders are created as per the verse number, within each verse folder, the audio clips are enumerated into 30 different reciters. The second subset includes only one folder of audio clips for imitators categorized by an anonymous ID. The data is shared as WAV format for the audio clips with maximum quality as recorded and disseminated over the internet, no enhancement of any kind is applied after scraping. In this version of the dataset (V3), a third data folder is added for the textual materials of all verses as plain text files; with and without vocalization\vowelization (تشكيل __ Tashkeel).

本音频库为目前唯一可在统一架构下涵盖海量诵经者与经文节段的公开资源,可供不同研究方向的相关研究者使用。音频文件分为两大主要数据集:第一数据集按章节(78至114章)划分为37个文件夹,各章节文件夹内依据经文节号创建子文件夹,每个经文节子文件夹中收录了30位不同诵经者的音频片段;第二数据集仅包含一个文件夹,其收录的音频片段来自以匿名ID分类的模仿诵读音频。本次共享的音频片段均采用WAV格式,保留了采集时的原始最高音质,未经过任何后期增强处理,直接从互联网抓取发布。本次数据集V3版本新增了第三数据文件夹,用于存储所有经文节段的纯文本资料,包含带元音标注(Tashkeel)与不带元音标注的纯文本文件。
提供机构:
Mendeley
创建时间:
2019-12-30
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Ar-DAD是一个阿拉伯语多样化音频数据集,包含大量朗诵者和诗句的音频文件,按章节和诗句组织,并包含模仿者的音频。数据集还提供文本材料,有带和不带元音标记的版本,适用于多种研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作