soreva

Hugging Face2025-05-25 更新2025-05-26 收录

下载链接：

https://huggingface.co/datasets/OlameMend/soreva

下载链接

链接失效反馈

官方服务：

资源简介：

SOREVA（小型非洲语言多样化出域资源）是一个多语种语音数据集，旨在评估低资源非洲语言的文本到语音（TTS）和语音表示模型的性能。该数据集包含来自撒哈拉以南非洲的49种非洲语言和方言的约150个音频样本和转录文本，特别针对出域泛化问题，解决通常在狭窄领域语料库（如宗教文本）上训练的语言评估集的缺乏问题。

创建时间：

2025-05-17

原始信息汇总

SOREVA数据集概述

数据集基本信息

名称: SOREVA (Small Out-of-domain Resource for Various African languages)
语言: 包含49种非洲语言和方言，如Afrikaans、Hausa、Yoruba、Igbo、Lingala、Kiswahili等
许可证: CC-BY-4.0
任务类别: 文本到语音(TTS)、自动语音识别(ASR)
磁盘占用: 约403.3 MB

数据集描述

目的: 为低资源非洲语言的文本到语音和语音表示模型评估提供多语言语音数据集
特点: 针对域外泛化，解决通常基于狭窄领域语料库(如宗教文本)训练的语言缺乏评估集的问题
数据来源: 歌德学院倡议收集的49种非洲语言和方言的150个样本(音频和转录)

数据集结构

数据实例示例

python { path: /home/mendo/.cache/huggingface/datasets/downloads/extracted/3f773a931d09d3c4f9e9a8643e93d191a30d36df95ae32eedbafb6a634135f98/cm_ewo_001.wav, audio: { path: cm_ewo/cm_ewo_001.wav, array: array([-0.00518799, -0.00698853, -0.00814819, ..., -0.02404785, -0.02084351, -0.02062988]), sampling_rate: 16000 }, transcription: mbembe kidi, raw_transcription: mbəmbə kídí, gender: 0, lang_id: 15, language: Ewondo }

数据字段

path: 音频文件路径
audio: 音频对象，包含:
- array: 加载的音频波形作为浮点值
- sampling_rate: 音频采样率
- path: 存档或数据集内的相对路径
transcription: 音频文件的标准化转录
raw_transcription: 原始非标准化转录
gender: 性别类别ID (0=男性, 1=女性, 2=其他)
lang_id: 语言类别ID
language: 与lang_id对应的完整语言名称

数据分割

目前仅提供test分割，包含约150个音频样本
其他分割(如train和validation)暂未包含，但预计通过社区贡献和持续数据集开发添加

使用方式

加载特定语言

python from datasets import load_dataset dataset = load_dataset("OlameMend/soreva", "ha_ng", split="test")

加载所有语言

python from datasets import load_dataset dataset = load_dataset("OlameMend/soreva", "all", split="test")

获取音频和转录

python from datasets import load_dataset from IPython.display import Audio

soreva = load_dataset("OlameMend/soreva", "ha_ng", split=test , trust_remote_code=True) audio_array = soreva[0][audio][array] sr = soreva[0][audio][sampling_rate] print(soreva[0][transcription]) Audio(audio_array, rate=sr)

数据集创建

数据由歌德学院收集，包含48种非洲语言和方言的150个音频样本及对应转录

使用注意事项

社会影响

鼓励开发更多世界语言的语音技术
目标是让每个人都能平等获得语音识别或语音翻译等技术

已知偏差

所有语言仅包含男性声音

其他限制

某些转录仅包含单词而非完整句子
某些音频的转录行包含两个句子(变体)

附加信息

所有数据集均根据Creative Commons license (CC-BY)许可

搜集汇总

数据集介绍

构建方式

SOREVA数据集作为非洲低资源语言语音技术评估的重要资源，其构建过程体现了跨语言数据采集的系统性。该数据集由歌德学院主导，采用标准化流程收集了涵盖48种非洲语言及方言的150个音频样本，每个样本均包含专业转录文本。数据采集特别关注撒哈拉以南非洲地区，既包含豪萨语、约鲁巴语等主要语言，也收录了巴卡语、杜阿拉语等少数民族语言和方言，通过严格的语音录制和文本转写规范确保数据质量。

使用方法

研究人员可通过Hugging Face的datasets库便捷访问该数据集，支持按语言代码加载特定语种或批量加载全部语种。典型应用场景包括：使用load_dataset函数加载测试集后，可直接获取音频波形数组与采样率进行TTS系统评估，或通过转录文本构建ASR测试流程。数据集采用标准化字段存储，包含audio字典（含波形数组和采样率）、规范化转录文本及语言标识符，支持在Jupyter等环境中直接播放音频进行人工校验。

背景与挑战

背景概述

SOREVA（Small Out-of-domain Resource for Various African languages）是由Goethe-Institut发起的一项多语言语音数据集项目，旨在为低资源非洲语言提供文本转语音（TTS）和语音表示模型的评估资源。该数据集涵盖了49种非洲语言及方言，包括标准语言如阿非利卡语、豪萨语、约鲁巴语等，以及方言和少数语言如Bafia、Baka、Basaa等。SOREVA特别关注领域外泛化问题，解决了传统上依赖狭窄领域语料（如宗教文本）训练的模型在多样化语言环境中的评估难题。这一数据集为非洲语言的语音技术研究提供了重要的基础资源，推动了语音技术在多样化语言环境中的应用与发展。

当前挑战

SOREVA数据集面临的主要挑战包括：1）领域问题的挑战：由于非洲语言的多样性和复杂性，构建一个能够覆盖多种语言且具有领域外泛化能力的评估数据集极具挑战性。2）构建过程中的挑战：数据集中仅包含男性声音，缺乏性别多样性；部分转录内容仅为单词而非完整句子，甚至存在同一音频对应多个句子的情况，这影响了数据的质量和一致性。此外，数据集的初始版本仅提供测试集，缺乏训练集和验证集，限制了其在模型训练中的直接应用。这些挑战需要通过后续的数据补充和优化来解决。

常用场景

经典使用场景

在语音技术研究领域，SOREVA数据集为非洲低资源语言的文本转语音（TTS）和自动语音识别（ASR）模型评估提供了重要基准。该数据集覆盖49种非洲语言及方言，特别针对宗教文本等窄域语料训练模型的跨领域泛化能力进行测试。研究者可通过标准化的测试分割，量化比较不同模型在多样化语言环境下的表现，尤其关注模型对非标准语言变体的适应性。

解决学术问题

该数据集有效解决了非洲语言语音技术研究中的关键瓶颈：缺乏跨领域评估资源。传统语音模型常受限于单一领域训练数据（如宗教文本），而SOREVA通过包含日常用语样本，为评估模型在实际场景中的泛化能力提供科学依据。其多语言特性支持语言迁移学习研究，尤其对解决数据稀疏语言的语音建模问题具有方法论意义。

实际应用

在实际应用层面，SOREVA支持开发面向非洲地区的智能语音助手、教育软件和公共服务系统。电信运营商可利用该数据集优化多语言语音接口，政府机构可基于此构建方言识别系统以提升公共服务覆盖面。非营利组织更可借助其开发语言保护工具，为濒危非洲方言建立数字化档案。

数据集最近研究