TV-44kHz-Full

Hugging Face2024-10-19 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full

下载链接

链接失效反馈

官方服务：

资源简介：

Thorsten-Voice数据集是一个德国语音数据集，包含约40小时的转录语音记录，由单一男性、母语者Thorsten Müller录制。该数据集包含超过38,000个波形文件，具有音频内容、唯一标识符、录音会话详情、风格（中性、情感、黑森方言）、录音文本、采样率、持续时间、录音速度、录音日期、麦克风类型、说话人信息、语言和评论等特征。数据集根据录音风格和质量分为多个子集，每个子集都有其独特的特性和录音条件。该数据集采用CC0许可，适用于文本到语音和文本到音频的任务。

创建时间：

2024-10-06

原始信息汇总

Thorsten-Voice 数据集

数据集概述

Thorsten-Voice 数据集是一个真正开源（CC0 许可证）的德语（🇩🇪）语音数据集，包含约 40 小时的转录语音录音，由 Thorsten Müller 录制，涵盖 超过 38,000 个波形文件。

数据集特征

音频: 实际音频文件内容，可直接在浏览器中播放。
id: 每个文件的唯一标识符，格式为 "RecordingSessionGUID---WaveGUID"。添加 ".wav" 后缀即为录音文件名。
subset: 录音会话的名称（详见下文）。
style: 可以是 "neutral"、"hessisch"（德语方言）或特定情感（详见下文）。
text: 该波形文件中录制的文本。
samplerate: 录音的采样率（44.100Hz）。
durationSeconds: 音频文件的时长（秒，保留两位小数）。
charsPerSecond: 每秒录制的字符数。
recording_year-month: 文本录制的月份。
microphone: 录音使用的麦克风，部分录音使用的是 USB 耳机，部分使用 Rode Podcaster 麦克风。
speaker: 录音者为 Thorsten Müller。
language: 所有录音均为德语。
comment: 部分情感录音可能会有截断的结尾，相关文件会有注释。

子集与风格

子集: TV-2021.02-Neutral

录音数量: 约 22,000 个
风格: 中性
录音质量: 混合，使用 USB 麦克风或 Rode Podcaster 麦克风，录音室录制。发音非常清晰且缓慢，但语音流不太自然。
Zenodo DOI: 10.5281/zenodo.5525342

子集: TV-2022.10-Neutral

录音数量: 约 12,000 个
风格: 中性
录音质量: 全部使用 Rode Podcaster 麦克风和录音室录制，语音流非常自然。
Zenodo DOI: 10.5281/zenodo.7265581

子集: TV-2021.06-Emotional

录音数量: 约 2,000 个
风格: 情感
情感类型: 中性、惊讶、厌恶、醉酒、愤怒、有趣、耳语、困倦
录音质量: 部分录音可能过早截断。
Zenodo DOI: 10.5281/zenodo.5525023

子集: TV-2023.09-Hessisch

录音数量: 约 2,000 个
风格: Hessisch（德语方言）
录音质量: 全部使用 Rode Podcaster 麦克风和录音室录制，语音流非常自然。
Zenodo DOI: 10.5281/zenodo.10511260

许可证

CC0-1.0

任务类别

文本到语音
文本到音频

语言

德语

搜集汇总

数据集介绍

构建方式

TV-44kHz-Full数据集的构建基于单一德语男性说话者的语音录制，涵盖了中性、情感化以及方言等多种语音风格。录制过程中，使用了不同的麦克风设备，包括低质量的USB耳机和高品质的Rode Podcaster麦克风，并在录音室中进行录制以确保音质。所有音频文件均经过去噪、静音修剪和标准化处理，采样率为44.1kHz，确保了音频的高清晰度和一致性。

使用方法

用户可以通过HuggingFace平台直接访问该数据集，并使用SQL查询语法筛选特定风格的语音样本。此外，Python用户可以通过`datasets`库加载数据集，并获取不同子集的详细信息。数据集支持多种配置，用户可以根据需求选择中性、情感化或方言等子集进行加载和分析。数据集还提供了详细的元数据，便于用户进行进一步的研究和开发。

背景与挑战

背景概述

TV-44kHz-Full数据集由德国开源语音技术爱好者Thorsten Müller创建，旨在为语音合成和文本转语音技术提供高质量的德语语音数据。该数据集包含约40小时的语音录音，涵盖了中性语音、情感语音以及德国黑森方言等多种风格。自2021年首次发布以来，数据集不断扩展，最新版本于2023年更新。Thorsten Müller以其个人声音为基础，致力于推动全球开源语音技术的发展，强调知识共享与教育平等。该数据集在语音合成、情感识别及方言研究等领域具有重要应用价值。

当前挑战

TV-44kHz-Full数据集在构建与应用中面临多重挑战。首先，语音数据的多样性与一致性难以平衡，尤其是在情感语音和方言录音中，确保语音的自然流畅性成为技术难点。其次，录音设备的质量差异影响了部分数据的音质，需通过后期处理优化。此外，情感语音的录制过程中，部分录音因技术限制存在截断问题，影响了数据的完整性。在应用层面，如何利用该数据集训练出能够准确识别和生成多种情感及方言的语音模型，仍需进一步研究。

常用场景

经典使用场景

在语音合成和语音识别领域，TV-44kHz-Full数据集因其高质量的德语语音样本而备受青睐。该数据集包含中性、情感化以及方言等多种语音风格，广泛应用于语音模型的训练与评估。研究者通过该数据集能够构建出更加自然、流畅的语音合成系统，同时提升语音识别系统在德语环境下的表现。

解决学术问题

TV-44kHz-Full数据集为语音技术研究提供了丰富的德语语音资源，解决了语音合成和识别领域中数据稀缺的问题。通过该数据集，研究者能够深入探讨不同语音风格对模型性能的影响，优化语音生成的自然度和情感表达。此外，该数据集还为方言语音研究提供了宝贵的数据支持，推动了多方言语音技术的发展。

实际应用

在实际应用中，TV-44kHz-Full数据集被广泛用于开发智能语音助手、语音翻译系统以及语音教育工具。其高质量的语音样本能够显著提升用户体验，使语音交互更加自然流畅。此外，该数据集还被用于语音情感分析，帮助开发情感识别系统，应用于心理健康监测和客户服务等领域。

数据集最近研究