five

Open Swara

收藏
github2026-03-02 更新2026-03-05 收录
下载链接:
https://github.com/jaymunshi/open-swara
下载链接
链接失效反馈
官方服务:
资源简介:
最大的开源人类化语音库,包含44种语言的4,065个语音样本,永久免费,遵循CC-BY-SA 4.0许可。我们收集了10个开源数据集的原始AI/合成语音样本,然后通过专有的语音处理流程对每一个样本进行了人类化处理,消除了原始的合成伪影,如机器人音调、不自然的节奏和平平的韵律,同时保留了每个声音独特的音色、音调和特性。

The largest open-source humanized speech dataset, comprising 4,065 speech samples across 44 languages, is permanently free to use and licensed under CC-BY-SA 4.0. We collected raw AI/synthetic speech samples from 10 open-source datasets, then subjected each sample to a proprietary speech processing pipeline for humanization, eliminating original synthetic artifacts such as robotic intonation, unnatural rhythm, and flat prosody, while preserving the unique timbre, pitch, and characteristics of each voice.
创建时间:
2026-03-02
原始信息汇总

Open Swara 数据集概述

数据集简介

Open Swara 是一个最大的开源人声化语音库,包含 4,065 个语音样本,覆盖 44 种语言,在 CC-BY-SA 4.0 协议下永久免费。

核心特点

该数据集收集了来自 10 个开源数据集的原始 AI/合成语音样本,并通过专有的语音处理流程对每一个样本进行了人声化处理。原始的合成痕迹(如机器人音调、不自然的节奏、平淡的韵律)被替换为听起来自然的语音,同时保留了每个声音独特的音色、音高和特征。

数据集统计

指标 数量
总语音数 4,065
语言数量 44
母语语音数 3,454
英语口音语音数 611
男性语音数 2,105
女性语音数 1,818
未知性别语音数 142

数据结构

数据集按以下目录结构组织:

voices/ ├── english/ │ ├── male/ │ │ ├── english_male_open_swara_001.wav │ │ └── ... │ ├── female/ │ └── unknown/ ├── german/ │ ├── male/ │ │ ├── german_male_open_swara_001.wav ← 说德语 │ │ ├── german_male_english_open_swara_001.wav ← 带德语口音说英语 │ ├── female/ │ └── unknown/ ├── french/ │ └── ... └── ... (44 种语言)

文件命名规则

  • {language}_{gender}_open_swara_{NNN}.wav — 用母语说话的语音
  • {language}_{gender}_english_open_swara_{NNN}.wav — 带母语口音说英语的语音

支持语言

阿拉伯语、保加利亚语、加泰罗尼亚语、中文、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、格鲁吉亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、哈萨克语、韩语、老挝语、拉脱维亚语、卢森堡语、马拉雅拉姆语、尼泊尔语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、泰卢固语、土耳其语、契维语、乌克兰语、越南语、威尔士语。

主要用途

这些语音非常适合作为以下应用的参考样本

  • 文本转语音 (TTS) 语音克隆
  • 语音转换系统
  • 多语言配音和本地化
  • 有声书旁白原型制作
  • 创意和研究项目

浏览目录

bash

搜索德语女性语音

python scripts/browse_catalog.py --language german --gender female

列出所有语言

python scripts/browse_catalog.py --list-languages

按关键词搜索

python scripts/browse_catalog.py --search "english_accent"

许可证

CC-BY-SA 4.0 — 在注明出处的前提下,可免费用于商业和非商业用途。

引用要求

使用 Open Swara 语音时,请注明:

Voices from Open Swara.

搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成技术快速发展的背景下,Open Swara数据集通过整合10个开源数据集中的原始AI或合成语音样本,构建了一个大规模的人性化语音库。其构建过程采用专有的语音处理流水线,对每个样本进行深度优化,有效消除了合成语音中常见的机械音调、不自然的节奏和平淡的韵律,同时保留了原始声音的独特音色、音高与个性特征,最终生成了4,065个覆盖44种语言的语音样本。
使用方法
该数据集主要作为参考样本库,服务于文本到语音合成、语音克隆、语音转换系统以及多语言配音等任务。用户可通过提供的Python脚本工具,依据语言、性别或关键词进行灵活检索,例如使用`browse_catalog.py`脚本筛选特定语言或性别的语音文件。数据集遵循CC-BY-SA 4.0许可协议,允许商业与非商业用途,使用时需按要求进行署名,确保符合开源规范。
背景与挑战
背景概述
在语音合成与人工智能领域,高质量、自然化语音数据的稀缺长期制约着相关技术的发展与应用。Open Swara数据集应运而生,由研究人员或机构通过整合10个开源数据集中的原始AI合成语音样本,并运用专有语音处理流程进行人声化处理构建而成。该数据集核心致力于解决合成语音中存在的机械音调、非自然节奏及平坦韵律等问题,旨在为文本到语音转换、语音克隆及多语言配音等任务提供丰富、自然的参考语音库。自创建以来,其涵盖44种语言、超过4000条语音样本的规模,显著推动了语音技术在多语言环境下的研究进展与创新应用。
当前挑战
Open Swara数据集所针对的领域挑战在于提升合成语音的自然度与表现力,传统语音合成系统常因缺乏足够多样且高质量的真人化语音数据,导致输出结果存在明显的机械感与情感缺失。在构建过程中,数据集面临多重技术难题:首先,原始合成语音样本中普遍存在的声学伪影与不连贯韵律需通过复杂信号处理手段予以消除;其次,在跨语言人声化转换时,需精准保持每个声音独特的音色、音高与个性特征,避免过度处理导致的信息损失;此外,整合多源异构数据并确保44种语言间语音质量的一致性,亦对数据处理流程的鲁棒性与可扩展性提出了较高要求。
常用场景
经典使用场景
在语音合成与人工智能领域,高质量语音数据的稀缺性长期制约着技术的进步。Open Swara数据集通过其庞大的多语言语音库,为文本到语音转换系统提供了丰富的参考样本。研究者能够利用这些经过人声优化的语音片段,训练出更具自然韵律和情感表达的合成模型,从而显著提升语音生成的真实感与流畅度。
解决学术问题
该数据集有效应对了合成语音中普遍存在的机械音调、不自然节奏和平坦韵律等学术挑战。通过专有的语音处理流程,它将原始合成语音转化为接近真人发音的样本,同时保留了独特的音色与音高特征。这为语音克隆、跨语言语音转换及韵律建模等研究方向提供了高质量的数据基础,推动了语音合成技术向更自然、更人性化的方向发展。
实际应用
在实际应用层面,Open Swara支持多语言配音、本地化项目以及有声读物原型制作。其涵盖44种语言的语音样本,使得内容创作者能够快速获得不同口音和性别的自然语音参考,大幅降低了影视、游戏及教育领域多媒体内容的语音制作门槛与成本。
数据集最近研究
最新研究方向
在语音合成与人工智能领域,Open Swara数据集以其大规模、多语言的人声样本库,正推动着前沿研究向自然化与个性化方向发展。该数据集通过专有处理流程将合成语音转化为拟人化声音,有效消除了机械音调与不自然的韵律,为文本到语音克隆、跨语言语音转换及多语言配音本地化提供了高质量参考。当前研究热点聚焦于利用此类数据提升低资源语言的语音合成质量,并探索在创意项目与教育应用中的声音定制化潜力,其开放许可模式进一步促进了学术与工业界的协作创新,对推动全球语音技术的包容性发展具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作