soreva
收藏SOREVA数据集概述
数据集基本信息
- 名称: SOREVA (Small Out-of-domain Resource for Various African languages)
- 语言: 包含49种非洲语言和方言,如Afrikaans、Hausa、Yoruba、Igbo、Lingala、Kiswahili等
- 许可证: CC-BY-4.0
- 任务类别: 文本到语音(TTS)、自动语音识别(ASR)
- 磁盘占用: 约403.3 MB
数据集描述
- 目的: 为低资源非洲语言的文本到语音和语音表示模型评估提供多语言语音数据集
- 特点: 针对域外泛化,解决通常基于狭窄领域语料库(如宗教文本)训练的语言缺乏评估集的问题
- 数据来源: 歌德学院倡议收集的49种非洲语言和方言的150个样本(音频和转录)
数据集结构
数据实例示例
python { path: /home/mendo/.cache/huggingface/datasets/downloads/extracted/3f773a931d09d3c4f9e9a8643e93d191a30d36df95ae32eedbafb6a634135f98/cm_ewo_001.wav, audio: { path: cm_ewo/cm_ewo_001.wav, array: array([-0.00518799, -0.00698853, -0.00814819, ..., -0.02404785, -0.02084351, -0.02062988]), sampling_rate: 16000 }, transcription: mbembe kidi, raw_transcription: mbəmbə kídí, gender: 0, lang_id: 15, language: Ewondo }
数据字段
path: 音频文件路径audio: 音频对象,包含:array: 加载的音频波形作为浮点值sampling_rate: 音频采样率path: 存档或数据集内的相对路径
transcription: 音频文件的标准化转录raw_transcription: 原始非标准化转录gender: 性别类别ID (0=男性, 1=女性, 2=其他)lang_id: 语言类别IDlanguage: 与lang_id对应的完整语言名称
数据分割
- 目前仅提供test分割,包含约150个音频样本
- 其他分割(如train和validation)暂未包含,但预计通过社区贡献和持续数据集开发添加
使用方式
加载特定语言
python from datasets import load_dataset dataset = load_dataset("OlameMend/soreva", "ha_ng", split="test")
加载所有语言
python from datasets import load_dataset dataset = load_dataset("OlameMend/soreva", "all", split="test")
获取音频和转录
python from datasets import load_dataset from IPython.display import Audio
soreva = load_dataset("OlameMend/soreva", "ha_ng", split=test , trust_remote_code=True) audio_array = soreva[0][audio][array] sr = soreva[0][audio][sampling_rate] print(soreva[0][transcription]) Audio(audio_array, rate=sr)
数据集创建
- 数据由歌德学院收集,包含48种非洲语言和方言的150个音频样本及对应转录
使用注意事项
社会影响
- 鼓励开发更多世界语言的语音技术
- 目标是让每个人都能平等获得语音识别或语音翻译等技术
已知偏差
- 所有语言仅包含男性声音
其他限制
- 某些转录仅包含单词而非完整句子
- 某些音频的转录行包含两个句子(变体)
附加信息
- 所有数据集均根据Creative Commons license (CC-BY)许可




