african_celtic_dataset

Name: african_celtic_dataset
Creator: McGill NLP Group
Published: 2026-01-17 22:11:56
License: 暂无描述

Hugging Face2026-01-17 更新2026-01-18 收录

下载链接：

https://huggingface.co/datasets/McGill-NLP/african_celtic_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个大规模的多语言语音语料库，专为语音到语音翻译、语音到文本以及多语言语音处理研究而设计。数据按语言、说话者（`user_id`）和数据集分割（`train`、`dev`）组织，并包含丰富的声学和元数据注释。数据集目前包括约鲁巴语（`Y`）、伊博语（`I`）、豪萨语（`H`）和英语（`E`）的语音数据。每个样本包含音频波形、说话者标识符、语言、文本转录、音频时长、录音时间戳、原始采样率、静音比例、信噪比、语音速率、平均音量等字段。数据集主要用于语音到语音翻译、语音到文本、多语言和低资源语音建模、声学分析和语音质量研究等用途，但不适用于说话者识别或验证、监视或生物特征分析等场景。

This dataset is a large-scale multilingual speech corpus tailored for research on speech-to-speech translation, speech-to-text, and multilingual speech processing. Data is organized by language, speaker (`user_id`), and dataset splits (`train`, `dev`), and includes rich acoustic and metadata annotations. Currently, the dataset contains speech data in four languages: Yoruba (`Y`), Igbo (`I`), Hausa (`H`), and English (`E`). Each sample includes fields such as audio waveform, speaker identifier, language, text transcription, audio duration, recording timestamp, original sampling rate, silence ratio, signal-to-noise ratio (SNR), speech rate, and average volume. This dataset is primarily intended for applications including speech-to-speech translation, speech-to-text, multilingual and low-resource speech modeling, acoustic analysis, and speech quality research, but is not suitable for speaker identification or verification, surveillance, or biometric analysis scenarios.

提供机构：

McGill NLP Group

创建时间：

2026-01-17

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Multilingual Speech Dataset (Speech-to-Speech / Speech-to-Text Ready)
发布与维护方: McGill NLP
数据集地址: https://huggingface.co/datasets/McGill-NLP/african_celtic_dataset
许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)

数据集简介

这是一个大规模多语言语音语料库，专为语音到语音翻译、语音到文本以及多语言语音处理研究而构建。数据按语言、说话人和数据集划分进行组织，并包含丰富的声学和元数据标注。

语言覆盖

数据集当前包含以下语言的语音数据：

约鲁巴语 (Y)
伊博语 (I)
豪萨语 (H)
英语 (E) 未来版本可能会添加更多语言。

数据集结构与规模

数据划分

数据集在Hugging Face上以扁平化的DatasetDict形式提供，包含以下划分：

训练集 (train)
开发集 (dev)

数据规模

训练集: 50,000 个样本，55,063,053,858 字节
开发集: 5,500 个样本，4,426,059,782 字节
总下载大小: 68,204,745,286 字节
总数据集大小: 59,489,113,640 字节

数据字段说明

每个样本包含以下字段：

字段名	类型	描述
`audio`	音频 (48 kHz)	语音波形
`user_id`	字符串	说话人标识符
`language`	字符串	话语的语言
`text_id`	字符串	所读文本的标识符
`text`	字符串	参考转录文本
`duration`	浮点数	音频时长（秒）
`recorded_at`	字符串	录音时间戳或会话信息
`original_sample_rate`	整数	重采样前的原始采样率
`silence_ratio`	浮点数	静音帧比例
`snr_db`	浮点数	信噪比 (dB)
`speech_rate`	浮点数	估计的语速
`volume_db`	浮点数	平均音量 (dB)
`split`	字符串	数据集划分 (`train`, `dev`)

音频规格

服务采样率: 48,000 Hz
格式: WAV
声道: 单声道原始采样率保存在original_sample_rate字段中。

预期用途

主要应用场景

语音到语音翻译
语音到文本和自动语音识别 (ASR)
多语言和低资源语音建模
声学分析和语音质量研究
说话人感知建模（非生物识别）

非适用范围

说话人识别或验证
监视或生物特征分析
未经同意的商业语音克隆

数据处理说明

音频在话语级别进行分割
通过user_id保留说话人边界
声学指标自动计算
未应用强制对齐或音素标注
提供的文本仅作为参考，可能包含自然语音的变体

引用信息

若在学术或工业研究中使用此数据集，请引用： bibtex @dataset{mcgillnlp_multilingual_speech, title = {Multilingual Speech Dataset}, author = {McGill NLP}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/mcgill-NLP} }

联系与维护

如有问题、疑问或贡献，请通过Hugging Face数据集仓库联系 mcgill-NLP。

搜集汇总

数据集介绍

构建方式

在构建非洲凯尔特语系数据集时，研究团队采用了一种系统化的数据采集与处理流程。该数据集聚焦于约鲁巴语、伊博语、豪萨语和英语等多种语言，通过精心设计的录音环节收集原始语音数据。每个语音样本均以48千赫兹的采样率进行录制，并保留了说话者的身份标识、语言类别及对应的文本转录。数据处理阶段涉及语音分割、静音比例计算、信噪比评估以及语速测量等声学特征提取，确保了数据的丰富性与一致性。数据被划分为训练集和开发集，分别包含五万和五千五百个样本，为后续的模型训练与评估提供了坚实基础。

特点

非洲凯尔特语系数据集展现出多方面的显著特点，其核心在于覆盖了多种非洲语言及英语，为低资源语言处理研究提供了宝贵资源。数据集不仅包含高质量的语音波形，还附带了详尽的元数据，如说话者身份、语言标签、文本转录以及多种声学指标，包括持续时间、静音比例、信噪比和音量等。这些特征使得数据集能够支持从语音到语音翻译、语音识别到多语言语音建模的广泛研究。此外，数据以单声道WAV格式提供，采样率统一为48千赫兹，同时保留了原始采样率信息，确保了数据的兼容性与分析深度。

使用方法

使用非洲凯尔特语系数据集时，研究人员可通过Hugging Face平台便捷访问，数据集以DatasetDict形式组织，包含训练集和开发集两个分割。每个数据行对应一个独立的语音片段，用户可以直接加载音频数据及其关联的元数据字段，如语言、说话者标识和声学特征。该数据集适用于语音到语音翻译、自动语音识别以及多语言语音处理等任务，支持端到端的模型训练与评估。在使用过程中，用户需遵循CC BY 4.0许可协议，提供适当的引用，并避免将其用于说话者识别或生物特征分析等超出范围的用途。

背景与挑战

背景概述

在语音技术领域，多语言语音数据集的构建对于推动语音到语音翻译、语音识别及低资源语言处理研究具有关键意义。african_celtic_dataset由McGill NLP团队于2026年发布，专注于整合约鲁巴语、伊博语、豪萨语和英语等语言的语音语料，旨在解决多语言语音处理中数据稀缺与多样性不足的核心问题。该数据集通过提供丰富的声学元数据与说话人标识，为跨语言语音模型的发展奠定了重要基础，对促进全球语言技术公平性产生了深远影响。

当前挑战

该数据集致力于应对多语言语音到语音翻译与语音识别中的挑战，包括低资源语言声学特征建模困难、跨语言语音对齐复杂性以及自然语音变异处理等问题。在构建过程中，团队需克服数据采集环境噪声干扰、说话人身份与语言标签准确标注、以及声学指标自动化计算的技术瓶颈，这些因素共同制约了数据集的规模扩展与质量提升。

常用场景

经典使用场景

在语音技术领域，多语言语音数据集为跨语言交流提供了关键支撑。african_celtic_dataset以其涵盖约鲁巴语、伊博语、豪萨语和英语的多样化语料，成为语音到语音翻译研究的经典资源。该数据集通过提供高采样率的音频波形、参考转录文本及丰富的声学元数据，使研究者能够训练端到端的翻译模型，实现不同语言间的实时语音转换，尤其适用于低资源语言的语音处理任务。

实际应用

在实际应用层面，african_celtic_dataset为开发面向非洲地区的语音助手、实时翻译工具和教育平台提供了数据支持。例如，在医疗、金融和公共服务领域，基于该数据集训练的模型能够实现多语言语音交互，打破语言障碍，提升信息可达性。同时，其在语音质量评估和自适应语音处理方面的应用，有助于优化通信设备在嘈杂环境中的性能，服务于数字包容性倡议。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，主要集中在低资源语音翻译和跨语言声学建模。例如，基于其多语言语料开发的端到端语音翻译系统，显著提升了非洲语言与英语间的转换准确性。此外，研究者利用其声学元数据探索了噪声鲁棒性算法和说话人自适应技术，推动了多任务学习框架在语音处理中的应用，为后续大规模多语言语音数据集的构建设立了参考标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集