five

halabi2016/arabic_speech_corpus|语音识别数据集|阿拉伯语数据集

收藏
hugging_face2024-08-14 更新2024-06-15 收录
语音识别
阿拉伯语
下载链接:
https://hf-mirror.com/datasets/halabi2016/arabic_speech_corpus
下载链接
链接失效反馈
资源简介:
Arabic Speech Corpus数据集由Nawar Halabi在南安普顿大学攻读博士学位期间开发,主要用于语音合成任务。数据集包含南黎凡特阿拉伯语(大马士革口音)的录音,录音在专业录音室完成。数据集的结构包括音频文件路径、音频数据、文本转录、语音转录和正字法转录。数据集分为训练集和测试集,训练集包含1813个样本,测试集包含100个样本。数据集的创建目的是展示高质量语音合成在较小语料库上的可行性。数据集的注释由专家生成,语音数据来自互联网上的新闻、体育、经济等内容,并经过随机选择以避免版权问题。数据集的使用受到CC BY 4.0许可证的保护。
提供机构:
halabi2016
原始信息汇总

数据集卡片:Arabic Speech Corpus

数据集描述

数据集摘要

该语音语料库是由Nawar Halabi在南安普顿大学攻读博士学位期间开发的。该语料库使用专业录音室录制,采用南黎凡特阿拉伯语(大马士革口音)。使用该语料库合成的语音输出具有高质量和自然语音。

支持的任务和排行榜

  • 任务类别: 自动语音识别
  • 任务ID: 语音识别

语言

音频为阿拉伯语。

数据集结构

数据实例

一个典型的数据点包括音频文件的路径(通常称为file)及其转录文本(称为text)。

示例: json { "file": "/Users/username/.cache/huggingface/datasets/downloads/extracted/baebe85e2cb67579f6f88e7117a87888c1ace390f4f14cb6c3e585c517ad9db0/arabic-speech-corpus/wav/ARA NORM 0002.wav", "audio": { "path": "/Users/username/.cache/huggingface/datasets/downloads/extracted/baebe85e2cb67579f6f88e7117a87888c1ace390f4f14cb6c3e585c517ad9db0/arabic-speech-corpus/wav/ARA NORM 0002.wav", "array": [...], "sampling_rate": 48000 }, "orthographic": "waraj~aHa Alt~aqoriyru Al~aiy >aEad~ahu maEohadu >aboHaA^i haDabapi Alt~ibiti fiy Alo>akaAdiymiy~api AlS~iyniy~api liloEuluwmi - >ano tasotamir~a darajaAtu AloHaraArapi wamusotawayaAtu Alr~uTuwbapi fiy Alo<irotifaAEi TawaAla haaA Aloqarono", "phonetic": "sil w a r a jj A H a tt A q r ii0 r u0 ll a * i0 < a E a dd a h u0 m a E h a d u0 < a b H aa ^ i0 h A D A b a t i0 tt i1 b t i0 f i0 l < a k aa d ii0 m ii0 y a t i0 SS II0 n ii0 y a t i0 l u0 l E u0 l uu0 m i0 sil < a n t a s t a m i0 rr a d a r a j aa t u0 l H a r aa r a t i0 w a m u0 s t a w a y aa t u0 rr U0 T UU0 b a t i0 f i0 l Ah i0 r t i0 f aa E i0 T A w A l a h aa * a l q A r n sil", "text": "ufeffwaraj~aHa Alt~aqoriyru Al~aTHiy >aEad~ahu maEohadu >aboHaA^i haDabapi Alt~ibiti fiy Alo>akaAdiymiy~api AlS~iyniy~api liloEuluwmi - >ano tasotamir~a darajaAtu AloHaraArapi wamusotawayaAtu Alr~uTuwbapi fiy Alo<irotifaAEi TawaAla haTHaA Aloqarono" }

数据字段

  • file: 下载的音频文件的路径,格式为.wav。
  • audio: 包含下载的音频文件路径、解码的音频数组和采样率的字典。
  • text: 音频文件的转录文本。
  • phonetic: 音标格式的转录。
  • orthographic: 正字法格式的转录。

数据分割

Train Test
数据集 1813 100

数据集创建

策划理由

该语料库的创建主要考虑了语音合成的应用。尽管它已被用作更大语料库的一部分,用于语音识别和语音去噪。以下是该语料库构建方式的一些解释:

  • 语料库大小: 预算限制和研究目标导致决定不收集更多数据。目标是展示高质量的语音合成在小语料库上也是可能的。
  • 音素多样性: 与其他许多语料库一样,音素多样性是通过贪婪方法实现的。从核心语句集开始,迭代地添加更多有助于增加音素多样性的语句。多样性的度量基于双音素频率。
  • 内容: 从互联网上收集了新闻、体育、经济等完全标注的内容。语句的选择是随机的,以避免版权问题。由于语料库大小,难以实现内容类型的多样性,这也不是目标。
  • 无意义语句: 语料库包含大量计算生成的语句,以补偿语料库主要部分中缺失的双音素。无意义语句的有用性在博士论文中未得到证实。
  • 配音员: 配音员具有叙利亚大马士革口音,使用正式阿拉伯语。

源数据

初始数据收集和规范化

从互联网上收集了新闻、体育、经济等完全标注的内容。语句的选择是随机的,以避免版权问题。由于语料库大小,难以实现内容类型的多样性,这也不是目标。我们仅限于完全标注的内容,以简化标注过程。

音素多样性是通过贪婪方法实现的。从核心语句集开始,迭代地添加更多有助于增加音素多样性的语句。多样性的度量基于双音素频率。

标注

标注过程

三位标注者使用HTK强制对齐工具将音频与音素对齐。他们还对重叠部分进行工作,以评估标注者之间的一致性和标注质量。整个语料库由人工标注者检查。

标注者

Nawar Halabi和两位匿名的阿拉伯语教师。

个人和敏感信息

该数据集包含在线捐赠声音的人。您同意不尝试确定该数据集中说话者的身份。配音员书面同意他们的声音用于语音技术,只要他们保持匿名。

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

该语料库由Nawar Halabi使用专业录音室录制,采用南黎凡特阿拉伯语(大马士革口音)。

许可信息

CC BY 4.0

引用信息

@phdthesis{halabi2016modern, title={Modern standard Arabic phonetics for speech synthesis}, author={Halabi, Nawar}, year={2016}, school={University of Southampton} }

贡献

该数据集由以下人员创建:

  • Nawar Halabi @nawarhalabi 主要创建者和标注者。
  • 两位匿名的阿拉伯语教师作为标注者。
  • 一位匿名的配音员。
  • 感谢 @zaidalyafeai 添加此数据集。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建主要基于语音合成的需求,采用了一系列 greedy 方法来确保 phonetic diversity。研究者从互联网上收集了新闻、体育、经济等领域的经过完全标音的内容,并通过随机选择来避免版权问题。数据集包含大量由计算机生成的无意义语句,以补偿主要语料中缺失的双音素。全部语音由一位来自大马士革的叙利亚方言者以正式阿拉伯语录制。
特点
Arabic Speech Corpus 是一个专注于南黎凡特阿拉伯语(大马士革口音)的语音语料库,具有以下特点:包含1813条训练数据和100条测试数据;语音采样率为48000;提供了音频文件的路径、音频数据、文本转录、音标和正字法转录;数据集采用CC BY 4.0许可,允许用户在遵守条款的情况下自由使用和分享。
使用方法
使用该数据集时,用户可以通过路径访问音频文件,并获取音频数组及其采样率。数据集还提供了文本转录、音标和正字法转录,方便进行语音识别等任务。在处理音频数据时,建议先查询样本索引,以避免解码和重采样大量音频文件所需的时间。
背景与挑战
背景概述
Arabic Speech Corpus是由南安普顿大学的Nawar Halabi在其博士研究中开发的语音语料库。该语料库以黎凡特阿拉伯语(大马士革口音)录制于专业录音室,旨在为语音合成提供高质量、自然的语音输出。该语料库不仅用于语音合成,还被用于更大的语料库中的语音识别和语音去噪研究。Arabic Speech Corpus的核心目标是展示即使在较小的语料库中,也能实现高质量的语音合成。该语料库的特点在于其语音多样性的实现,通过贪心方法迭代增加语音样本,以增加更多的语音多样性。尽管语料库的内容多样性受到限制,但它包含了大量由计算机生成的无意义语句,以补偿主要部分中缺失的双音素。该语料库的创建体现了语音合成领域在语料库构建方面的研究进展和挑战。
当前挑战
在构建Arabic Speech Corpus的过程中,研究人员面临了多个挑战。首先,由于预算限制,语料库的大小受到限制,这限制了内容的多样性和语音样本的数量。其次,语音多样性的实现依赖于贪心方法,这可能无法完全覆盖阿拉伯语的语音空间。此外,语料库的内容选择随机化以避免版权问题,但这也使得内容类型的多样性难以实现。最后,语料库中的无意义语句的实际效用尚未得到验证,这可能会影响其在语音合成以外的应用。
常用场景
经典使用场景
在语音合成领域,Arabic Speech Corpus数据集的经典使用场景是作为训练素材,以生成高质量的现代标准阿拉伯语音合成输出。该数据集包含了南黎凡特阿拉伯语(大马士革口音)的专业录音,使得研究者能够在此基础上训练出自然流畅的语音合成模型。
实际应用
在实际应用中,Arabic Speech Corpus数据集可用于开发阿拉伯语音识别系统、语音助手和语音转换技术。这些技术的应用范围包括教育、客户服务、远程通信和辅助技术等领域,极大地便利了阿拉伯语使用者的日常生活。
衍生相关工作
基于Arabic Speech Corpus数据集,衍生出了多项相关研究工作,如语音识别模型的开发、语音合成技术的改进以及阿拉伯语音韵学特征的深入分析。这些研究进一步推动了阿拉伯语自然语言处理技术的发展,并在学术界和工业界产生了广泛影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录