intronhealth/afrispeech-200

Name: intronhealth/afrispeech-200
Creator: intronhealth
Published: 2023-11-20 09:20:34
License: 暂无描述

Hugging Face2023-11-20 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/intronhealth/afrispeech-200

下载链接

链接失效反馈

官方服务：

资源简介：

AFRISPEECH-200是一个包含200小时泛非洲口音英语语音的数据集，用于临床和一般领域的自动语音识别（ASR）研究。该数据集由来自13个国家的2463名独特说话者录制，涵盖了120种非洲口音。数据集的目标是提高对泛非洲英语ASR研究的认识，特别是在临床领域。数据集的结构包括音频文件路径、转录文本和说话者信息等字段，并分为训练集、开发集和测试集。

AFRISPEECH-200 is a dataset consisting of 200 hours of Pan-African accented English speech, designed for automatic speech recognition (ASR) research in both clinical and general domains. This dataset was recorded from 2463 unique speakers across 13 countries, covering 120 African accents. The goal of this dataset is to raise awareness of Pan-African English ASR research, particularly in the clinical field. The dataset includes fields such as audio file paths, transcriptions and speaker information, and is divided into training, development and test sets.

提供机构：

intronhealth

原始信息汇总

数据集概述：AfriSpeech-200

数据集描述

基本信息

名称: AfriSpeech-200
标注创建者: 专家生成
语言创建者: 众包、专家生成
语言: 英语
许可证: CC BY-NC-SA 4.0
多语言性: 单语种
大小类别: 10K<n<100K
源数据集: 原始数据
任务类别: 自动语音识别

数据集结构

特征:
- user_id: 字符串
- path: 字符串
- audio: 音频，采样率44100
- transcript: 字符串
分割:
- train: 58000个样本，1722002133字节
- dev: 3231个样本，86120227字节
下载大小: 1475540500字节
数据集大小: 1808122360字节

数据集创建

目的: 提高对泛非洲英语自动语音识别研究的意识，特别是在临床领域。
数据来源: 120种非洲口音，来自13个国家，2463名独特的发言人。

数据实例

典型数据点: 包含音频文件路径、转录文本、发言人信息等。

数据字段

speaker_id: 发言人ID
path: 音频文件路径
audio: 音频数据，包含路径、解码音频数组和采样率
transcript: 转录文本

数据分割

总发言人数量: 2463
性别比例: 女性57.11%，男性42.41%，其他0.48%
分割详情:
- Train: 1466个发言人，624228.83秒，173.4小时
- Dev: 247个发言人，31447.09秒，8.74小时
- Test: 750个发言人，67559.10秒，18.77小时

国家统计

国家: 尼日利亚、肯尼亚、南非等13个国家
样本数量: 从几十到几万不等
发言人数量: 从几个到几千不等
持续时间: 从几秒到几百小时不等

口音统计

口音: 约鲁巴语、伊博语、斯瓦希里语等120种口音
样本数量: 从几十到几万不等
发言人数量: 从几个到几百不等
持续时间: 从几秒到几千秒不等

使用注意事项

访问要求: 同意不尝试确定数据集中发言人的身份。
使用限制: 仅供研究目的使用，请查看数据集许可证获取更多信息。

许可证信息

许可证: CC BY-NC-SA 4.0

引用信息

引用:

@article{olatunji2023afrispeech, title={AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and General Domain ASR}, author={Olatunji, Tobi and Afonja, Tejumade and Yadavalli, Aditya and Emezue, Chris Chinenye and Singh, Sahib and Dossou, Bonaventure FP and Osuchukwu, Joanne and Osei, Salomey and Tonja, Atnafu Lambebo and Etori, Naome and others}, journal={arXiv preprint arXiv:2310.00274}, year={2023} }

搜集汇总

数据集介绍

构建方式

在语音识别领域，构建具有广泛代表性的数据集对于提升模型在多样化口音上的性能至关重要。AfriSpeech-200数据集的构建采用了专家生成与群体众包相结合的方式，通过精心设计的流程收集了来自13个非洲国家的2,463名独特说话者的语音样本。数据采集在安静环境中使用高质量麦克风进行，说话者被要求逐句朗读文本，确保了音频的清晰度与一致性。数据集涵盖了120种本土口音，总时长约200小时，内容分为临床与通用两个领域，以支持特定场景下的语音识别研究。数据划分基于说话者身份进行，确保训练、开发与测试集之间不存在说话者重叠，从而保证了评估的公正性。

特点

该数据集的核心特点在于其广泛的泛非口音覆盖与多领域内容设计。它收录了来自非洲13个国家的120种本土口音，包括约鲁巴语、伊博语、斯瓦希里语等主要语种，以及众多小众口音，为研究口音多样性提供了丰富素材。数据集包含67,577条语音片段，总时长约200小时，其中临床领域与通用领域内容并存，前者专注于医疗语境下的语音，后者则涵盖日常对话，这种双领域结构增强了数据集的实用价值。此外，数据集提供了详细的元数据，如说话者年龄、性别、口音及国家信息，便于进行细粒度的分析与模型优化。

使用方法

利用该数据集进行语音识别研究时，可通过Hugging Face的`datasets`库便捷加载。用户可使用`load_dataset`函数下载完整数据集或按特定口音配置（如`isizulu`）加载子集，以适应存储或带宽限制。对于大规模数据处理，建议启用流式模式，通过设置`streaming=True`参数实现动态加载，避免一次性下载全部数据。数据集支持自动语音识别与语音合成任务，用户可结合`transformers`库中的预训练模型进行微调，例如使用Wav2Vec2架构在临床或通用领域上进行适配训练。数据加载后，可进一步通过PyTorch的`DataLoader`进行批处理，以优化训练流程。

背景与挑战

背景概述

在自动语音识别（ASR）领域，非洲口音英语的数据长期匮乏，这限制了相关技术在该地区的应用与发展。AfriSpeech-200数据集由Intron Innovation与CLAIR Lab于2023年联合创建，旨在填补这一空白。该数据集收录了来自13个非洲国家、涵盖120种本土口音的200小时语音数据，涉及2,463名独特说话者，专注于临床与通用领域的英语口音语音识别研究。其核心研究问题在于解决非洲口音语音数据稀缺导致的ASR模型性能偏差，推动包容性语音技术的发展，对提升非洲地区医疗效率与语言技术公平性具有重要影响力。

当前挑战

AfriSpeech-200面临的挑战主要体现在两个方面：在领域问题层面，该数据集致力于解决非洲口音英语语音识别中的性能偏差问题，由于现有ASR系统多基于主流口音数据训练，对非洲多样口音的泛化能力不足，尤其在临床领域的高噪声环境下识别准确率显著下降；在构建过程层面，数据收集面临口音与地域分布的高度分散性，需协调多国参与者并确保录音质量的一致性，同时标注过程需处理口音变体与专业医学术语的复杂性，且需在保护说话者隐私的前提下完成大规模数据合规整合。

常用场景

经典使用场景

在语音识别领域，非洲口音英语数据长期匮乏，AfriSpeech-200数据集以其涵盖120种非洲口音、13个国家、2463名说话者的规模，成为训练和评估跨口音自动语音识别模型的经典资源。该数据集特别注重临床与通用领域的平衡，为研究者提供了在多样化口音背景下优化声学模型和语言模型的基准平台，尤其在处理约鲁巴语、伊博语等主流非洲口音时展现出显著的实用价值。

衍生相关工作

基于AfriSpeech-200数据集，研究者已开展多项经典工作，例如在AfriSpeech ASR挑战赛中优化的端到端语音识别模型，以及结合Wav2Vec 2.0等自监督学习架构的微调研究。这些工作不仅提升了非洲口音英语的识别准确率，还衍生出针对特定口音（如伊西祖鲁语）的定制化模型，为后续跨语言、跨领域的语音技术研究提供了重要参考。

数据集最近研究