WolneLektury-TTS-Polish

Hugging Face2026-01-24 更新2026-01-25 收录

下载链接：

https://huggingface.co/datasets/klapaucius-ai/WolneLektury-TTS-Polish

下载链接

链接失效反馈

官方服务：

资源简介：

WolneLektury-TTS-Polish是一个大规模、高质量的波兰语语音数据集，专为文本到语音（TTS）和自动语音识别（ASR）应用设计。数据集来源于波兰数字图书馆项目Wolne Lektury（自由阅读），该项目提供波兰和世界文学公共领域作品的免费访问。数据集包含专业配音演员朗读的波兰经典文学作品的音频，总计391,557个样本，总时长为1011小时，涉及1,199个独特的说话者。每个样本包含MP3音频文件（24kHz，单声道，128kbps）、文本转录（带标点符号）、语言代码（pl）、说话者/有声书标识符和音频质量评分（DNSMOS P.835）。样本被分割为适合TTS训练的最佳长度（5-15秒，目标约10秒）。

创建时间：

2026-01-23

原始信息汇总

WolneLektury-TTS-Polish 数据集概述

数据集基本信息

名称：WolneLektury-TTS-Polish
语言：波兰语 (pl)
主要任务类别：文本到语音合成、自动语音识别
许可证：Apache 2.0
数据规模：100K < n < 1M
标签：音频、语音、波兰语、文本到语音合成、有声读物

数据来源

该数据集源自 Wolne Lektury (https://wolnelektury.pl/)，这是一个波兰数字图书馆项目，提供公共领域的波兰及世界文学作品的免费访问。有声读物由专业配音演员朗读经典波兰文学作品。

数据集统计

总样本数：391,557
总时长：1011 小时
唯一说话人数量：1,199
平均样本时长：9.3 秒
平均 DNSMOS 音频质量分数：3.50

时长分布

样本被分割为适合文本到语音合成训练的最佳长度（5-15 秒，目标约 10 秒）。

数据特征

字段	类型	描述
`__key__`	字符串	唯一样本标识符
`mp3`	音频	MP3 文件 (24kHz, 单声道, 128kbps)
`text`	字符串	带标点的转录文本
`language`	字符串	语言代码 (`pl`)
`speaker_id`	字符串	说话人/有声读物标识符
`dnsmos`	浮点数	音频质量分数 (DNSMOS P.835)

使用方式

python from datasets import load_dataset

dataset = load_dataset("klapaucius-ai/WolneLektury-TTS-Polish")

访问样本

sample = dataset["train"][0] print(sample["text"])

播放音频: sample["mp3"]

引用

bibtex @dataset{wolnelektury_tts_polish}, title = {WolneLektury-TTS-Polish}, author = {klapaucius-ai}, year = {2026}, url = {https://huggingface.co/datasets/klapaucius-ai/WolneLektury-TTS-Polish}, license = {Apache-2.0} }

致谢

音频来源：Wolne Lektury (https://wolnelektury.pl/) - 波兰公共领域文学数字图书馆。

搜集汇总

数据集介绍

构建方式

在波兰语语音合成研究领域，高质量数据集的构建是推动技术进步的关键。WolneLektury-TTS-Polish数据集源于波兰数字图书馆项目“Wolne Lektury”，该项目收录了大量公共领域的波兰及世界文学经典作品。构建者从该平台提供的专业朗读者录制的有声书中，系统性地提取音频片段，并进行了精心的后期处理。每个样本均被切割为适宜语音合成模型训练的5至15秒长度，平均时长约为9.3秒，同时为每个样本标注了对应的文本转录、说话人标识以及基于DNSMOS P.835标准的音频质量评分，最终形成了包含近40万样本、总时长超千小时的大规模语料库。

特点

该数据集在波兰语语音资源中展现出显著的优势。其核心特点在于规模宏大且质量上乘，涵盖了来自1,199位独特说话人的语音数据，确保了发音风格的多样性。所有音频均以24kHz单声道、128kbps的MP3格式提供，并附带有标点符号的精确文本转录，为模型训练提供了对齐良好的数据对。尤为重要的是，数据集引入了客观的音频质量评估指标DNSMOS，平均得分达到3.50，为研究者筛选高质量训练样本提供了可靠依据。这些特征共同使其成为支持文本到语音和自动语音识别任务的高价值资源。

使用方法

对于旨在开发或评估波兰语语音技术的研究者与工程师而言，该数据集提供了便捷的访问途径。用户可通过Hugging Face的`datasets`库直接加载数据集，使用`load_dataset`函数并指定数据集名称即可获取训练分割。加载后，数据集以结构化的形式呈现，每个样本包含音频文件、转录文本、说话人ID和语言代码等关键字段。研究人员可以轻松遍历样本，提取音频进行播放或特征分析，并利用其丰富的元数据开展多说话人语音合成、语音质量评估或口音多样性研究等一系列实验。

背景与挑战

背景概述

在语音合成与自动语音识别技术蓬勃发展的背景下，高质量、大规模的多语言语音数据成为推动相关模型性能突破的关键资源。WolneLektury-TTS-Polish数据集应运而生，由klapaucius-ai团队于2026年构建并发布。该数据集源自波兰数字图书馆项目“Wolne Lektury”，该项目致力于提供波兰及世界公共领域文学作品的免费访问。数据集核心研究问题在于为波兰语这一资源相对稀缺的语言，构建一个适用于文本到语音和语音识别任务的大规模、高质量语音语料库。其通过整合专业朗读者演绎的经典文学作品有声书，不仅丰富了波兰语语音资源的多样性，也为相关自然语言处理模型的训练与评估提供了重要基础，对推动斯拉夫语系语言的语音技术发展具有显著影响力。

当前挑战

该数据集旨在解决波兰语文本到语音与自动语音识别模型训练中高质量数据匮乏的核心领域挑战。具体而言，其面临的挑战包括：在领域问题层面，如何确保语音样本在韵律、情感表达和发音清晰度上具备足够的自然性与多样性，以支撑生成自然流畅的合成语音或实现高精度的语音识别；在构建过程层面，挑战源于原始有声书的长音频分割与对齐，需将连续叙述精准切分为适用于模型训练的短片段（目标约10秒），同时保持文本转录的标点完整性与语义连贯性。此外，处理来自近1200名不同朗读者的录音，需统一音频质量评估（如DNSMOS评分）并管理说话人身份的元数据，以保障数据的一致性与可用性。

常用场景

经典使用场景

在波兰语语音技术领域，WolneLektury-TTS-Polish数据集为文本到语音合成模型的训练提供了核心资源。其经典使用场景集中于构建高质量的波兰语语音合成系统，通过利用超过一千小时的专业朗读音频及其对应文本，研究者能够训练出能够生成自然、清晰波兰语语音的深度神经网络模型。该数据集特别适用于端到端的TTS架构开发，因其精心分割的音频片段和丰富的说话人多样性，有效支持了多说话人语音合成与风格迁移的研究。

衍生相关工作

围绕该数据集，已衍生出一系列经典的语音技术研究工作。例如，研究者利用其多说话人特性开发了波兰语语音克隆与个性化TTS系统；亦有工作专注于提升波兰语端到端TTS模型的自然度与鲁棒性。该数据集常被用作基准，用于比较不同语音合成架构在波兰语上的性能，并催生了针对波兰语语音前沿问题的预训练模型探索，持续推动着区域性语音人工智能生态的发展。

数据集最近研究