Open Swara
收藏Open Swara 数据集概述
数据集简介
Open Swara 是一个最大的开源人声化语音库,包含 4,065 个语音样本,覆盖 44 种语言,在 CC-BY-SA 4.0 协议下永久免费。
核心特点
该数据集收集了来自 10 个开源数据集的原始 AI/合成语音样本,并通过专有的语音处理流程对每一个样本进行了人声化处理。原始的合成痕迹(如机器人音调、不自然的节奏、平淡的韵律)被替换为听起来自然的语音,同时保留了每个声音独特的音色、音高和特征。
数据集统计
| 指标 | 数量 |
|---|---|
| 总语音数 | 4,065 |
| 语言数量 | 44 |
| 母语语音数 | 3,454 |
| 英语口音语音数 | 611 |
| 男性语音数 | 2,105 |
| 女性语音数 | 1,818 |
| 未知性别语音数 | 142 |
数据结构
数据集按以下目录结构组织:
voices/ ├── english/ │ ├── male/ │ │ ├── english_male_open_swara_001.wav │ │ └── ... │ ├── female/ │ └── unknown/ ├── german/ │ ├── male/ │ │ ├── german_male_open_swara_001.wav ← 说德语 │ │ ├── german_male_english_open_swara_001.wav ← 带德语口音说英语 │ ├── female/ │ └── unknown/ ├── french/ │ └── ... └── ... (44 种语言)
文件命名规则
{language}_{gender}_open_swara_{NNN}.wav— 用母语说话的语音{language}_{gender}_english_open_swara_{NNN}.wav— 带母语口音说英语的语音
支持语言
阿拉伯语、保加利亚语、加泰罗尼亚语、中文、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、格鲁吉亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、哈萨克语、韩语、老挝语、拉脱维亚语、卢森堡语、马拉雅拉姆语、尼泊尔语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、泰卢固语、土耳其语、契维语、乌克兰语、越南语、威尔士语。
主要用途
这些语音非常适合作为以下应用的参考样本:
- 文本转语音 (TTS) 语音克隆
- 语音转换系统
- 多语言配音和本地化
- 有声书旁白原型制作
- 创意和研究项目
浏览目录
bash
搜索德语女性语音
python scripts/browse_catalog.py --language german --gender female
列出所有语言
python scripts/browse_catalog.py --list-languages
按关键词搜索
python scripts/browse_catalog.py --search "english_accent"
许可证
CC-BY-SA 4.0 — 在注明出处的前提下,可免费用于商业和非商业用途。
引用要求
使用 Open Swara 语音时,请注明:
Voices from Open Swara.




