halabi2016/arabic_speech_corpus|语音识别数据集|阿拉伯语数据集
收藏数据集卡片:Arabic Speech Corpus
数据集描述
数据集摘要
该语音语料库是由Nawar Halabi在南安普顿大学攻读博士学位期间开发的。该语料库使用专业录音室录制,采用南黎凡特阿拉伯语(大马士革口音)。使用该语料库合成的语音输出具有高质量和自然语音。
支持的任务和排行榜
- 任务类别: 自动语音识别
- 任务ID: 语音识别
语言
音频为阿拉伯语。
数据集结构
数据实例
一个典型的数据点包括音频文件的路径(通常称为file
)及其转录文本(称为text
)。
示例: json { "file": "/Users/username/.cache/huggingface/datasets/downloads/extracted/baebe85e2cb67579f6f88e7117a87888c1ace390f4f14cb6c3e585c517ad9db0/arabic-speech-corpus/wav/ARA NORM 0002.wav", "audio": { "path": "/Users/username/.cache/huggingface/datasets/downloads/extracted/baebe85e2cb67579f6f88e7117a87888c1ace390f4f14cb6c3e585c517ad9db0/arabic-speech-corpus/wav/ARA NORM 0002.wav", "array": [...], "sampling_rate": 48000 }, "orthographic": "waraj~aHa Alt~aqoriyru Al~aiy >aEad~ahu maEohadu >aboHaA^i haDabapi Alt~ibiti fiy Alo>akaAdiymiy~api AlS~iyniy~api liloEuluwmi - >ano tasotamir~a darajaAtu AloHaraArapi wamusotawayaAtu Alr~uTuwbapi fiy Alo<irotifaAEi TawaAla haaA Aloqarono", "phonetic": "sil w a r a jj A H a tt A q r ii0 r u0 ll a * i0 < a E a dd a h u0 m a E h a d u0 < a b H aa ^ i0 h A D A b a t i0 tt i1 b t i0 f i0 l < a k aa d ii0 m ii0 y a t i0 SS II0 n ii0 y a t i0 l u0 l E u0 l uu0 m i0 sil < a n t a s t a m i0 rr a d a r a j aa t u0 l H a r aa r a t i0 w a m u0 s t a w a y aa t u0 rr U0 T UU0 b a t i0 f i0 l Ah i0 r t i0 f aa E i0 T A w A l a h aa * a l q A r n sil", "text": "ufeffwaraj~aHa Alt~aqoriyru Al~aTHiy >aEad~ahu maEohadu >aboHaA^i haDabapi Alt~ibiti fiy Alo>akaAdiymiy~api AlS~iyniy~api liloEuluwmi - >ano tasotamir~a darajaAtu AloHaraArapi wamusotawayaAtu Alr~uTuwbapi fiy Alo<irotifaAEi TawaAla haTHaA Aloqarono" }
数据字段
- file: 下载的音频文件的路径,格式为.wav。
- audio: 包含下载的音频文件路径、解码的音频数组和采样率的字典。
- text: 音频文件的转录文本。
- phonetic: 音标格式的转录。
- orthographic: 正字法格式的转录。
数据分割
Train | Test | |
---|---|---|
数据集 | 1813 | 100 |
数据集创建
策划理由
该语料库的创建主要考虑了语音合成的应用。尽管它已被用作更大语料库的一部分,用于语音识别和语音去噪。以下是该语料库构建方式的一些解释:
- 语料库大小: 预算限制和研究目标导致决定不收集更多数据。目标是展示高质量的语音合成在小语料库上也是可能的。
- 音素多样性: 与其他许多语料库一样,音素多样性是通过贪婪方法实现的。从核心语句集开始,迭代地添加更多有助于增加音素多样性的语句。多样性的度量基于双音素频率。
- 内容: 从互联网上收集了新闻、体育、经济等完全标注的内容。语句的选择是随机的,以避免版权问题。由于语料库大小,难以实现内容类型的多样性,这也不是目标。
- 无意义语句: 语料库包含大量计算生成的语句,以补偿语料库主要部分中缺失的双音素。无意义语句的有用性在博士论文中未得到证实。
- 配音员: 配音员具有叙利亚大马士革口音,使用正式阿拉伯语。
源数据
初始数据收集和规范化
从互联网上收集了新闻、体育、经济等完全标注的内容。语句的选择是随机的,以避免版权问题。由于语料库大小,难以实现内容类型的多样性,这也不是目标。我们仅限于完全标注的内容,以简化标注过程。
音素多样性是通过贪婪方法实现的。从核心语句集开始,迭代地添加更多有助于增加音素多样性的语句。多样性的度量基于双音素频率。
标注
标注过程
三位标注者使用HTK强制对齐工具将音频与音素对齐。他们还对重叠部分进行工作,以评估标注者之间的一致性和标注质量。整个语料库由人工标注者检查。
标注者
Nawar Halabi和两位匿名的阿拉伯语教师。
个人和敏感信息
该数据集包含在线捐赠声音的人。您同意不尝试确定该数据集中说话者的身份。配音员书面同意他们的声音用于语音技术,只要他们保持匿名。
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
该语料库由Nawar Halabi使用专业录音室录制,采用南黎凡特阿拉伯语(大马士革口音)。
许可信息
引用信息
@phdthesis{halabi2016modern, title={Modern standard Arabic phonetics for speech synthesis}, author={Halabi, Nawar}, year={2016}, school={University of Southampton} }
贡献
该数据集由以下人员创建:
- Nawar Halabi @nawarhalabi 主要创建者和标注者。
- 两位匿名的阿拉伯语教师作为标注者。
- 一位匿名的配音员。
- 感谢 @zaidalyafeai 添加此数据集。

CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录