MushanW/ESLTTS

Name: MushanW/ESLTTS
Creator: MushanW
Published: 2024-06-22 00:57:19
License: 暂无描述

Hugging Face2024-06-22 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/MushanW/ESLTTS

下载链接

链接失效反馈

官方服务：

资源简介：

ESLTTS数据集是一个专门为非母语英语使用者设计的语音合成数据集，包含约37小时的42,000条语音记录，来自134位非母语英语使用者，这些使用者代表31种不同的母语背景。数据集包括适应集、测试集和开发集，每个集都包含音频文件和相应的转录文本，用于支持说话者自适应的语音合成研究和评估。

提供机构：

MushanW

原始信息汇总

ESLTTS 数据集概述

基本信息

语言: 英语
许可: CC0-1.0
任务类别:
- 文本到音频
- 自动语音识别
- 音频到音频
- 音频分类

数据集结构

特征:
- audio: 音频数据
- speaker_id: 说话者ID
- transcript: 转录文本
- native_language: 母语
- subset: 子集
分割:
- all: 包含41,806个样本，总大小为3,179,636,720.056字节
配置:
- default: 数据文件路径为data/all-*

数据集详情

下载大小: 3,667,597,693字节
数据集大小: 3,179,636,720.056字节

数据集内容

总时长: 约37小时
样本数量: 42,000个
说话者数量: 134个
母语种类: 31种

数据集结构示例

ESLTTS Dataset/ ├─ Malayalam_3/ ------------ {Speaker Native Language}{Speaker id} │ ├─ ada_1.flac ------------ {Subset Name}{Utterance id} │ ├─ ada_1.txt ------------ Transcription for "ada_1.flac" │ ├─ test_1.flac ------------ {Subset Name}{Utterance id} │ ├─ test_1.txt ------------ Transcription for "test_1.flac" │ ├─ dev_1.flac ------------ {Subset Name}{Utterance id} │ ├─ dev_1.txt ------------ Transcription for "dev_1.flac" │ ├─ ... ├─ Arabic_3/ ------------ {Speaker Native Language}{Speaker id} │ ├─ ada_1.flac ------------ {Subset Name}{Utterance id} │ ├─ ... ├─ ...

搜集汇总

数据集介绍

构建方式

在语音合成领域，针对非母语口音的研究长期受限于专用数据集的匮乏。ESLTTS数据集的构建旨在填补这一空白，其采集过程涵盖了134位非母语英语使用者，这些使用者来自31种不同的母语背景，确保了语言多样性的广泛覆盖。数据采集通过精心设计的录音流程完成，每位说话者贡献了约5分钟的适应集、10条测试语句以及额外的开发集，总计约37小时、42000条语音样本。每条语音均配有精确的文本转录，并以FLAC格式存储，确保了音频质量与文本对齐的准确性，为后续研究提供了坚实的多语言口音数据基础。

使用方法

使用ESLTTS数据集时，研究者可通过Hugging Face平台直接加载，利用其预定义的数据分割进行模型开发。对于说话者自适应语音合成任务，可首先利用适应集进行说话者特征提取，再结合测试集评估模型在非母语口音上的合成效果。数据集支持多种任务配置，包括文本到音频、语音识别及音频分类，用户可根据需要提取音频、说话者ID、转录文本及母语标签等特征。在实验设计中，建议结合开发集进行超参数调优，并引用原始论文以确保学术规范性，从而充分发挥该数据集在推动口音适应性语音技术研究中的作用。

背景与挑战

背景概述

在语音合成技术飞速发展的背景下，说话人自适应文本转语音模型已在标准语音数据集上展现出卓越的模仿能力。然而，针对带有显著口音的非母语说话人的语音合成，仍是该领域亟待攻克的前沿难题。为填补这一研究空白，研究人员于2024年构建了ESLTTS数据集，该数据集由Wenbin Wang、Yang Song与Sanjay K. Jha等学者共同创建，收录了来自134位非母语说话人、涵盖31种母语背景的约37小时英语语音。其核心研究目标在于推动面向第二语言使用者的个性化语音合成技术，为口音语音建模与跨语言语音生成提供了关键的数据资源，对促进语音技术的包容性与实用性具有深远影响。

当前挑战

ESLTTS数据集致力于解决非母语英语说话人的语音合成挑战，其首要难题在于如何准确建模多样且复杂的口音特征，包括音素变异、韵律偏差及母语迁移效应，这对传统基于母语数据训练的模型构成了泛化性考验。在构建过程中，研究团队面临数据采集与标注的双重困难：需在确保语音质量的同时，广泛覆盖多国语言背景以保障数据多样性；同时，精确的文本转写与说话人元数据标注需克服口音导致的语音识别误差，并建立系统的说话人身份与母语信息关联体系，这些工作均需耗费大量人力与计算资源以保障数据集的科学性与可用性。

常用场景

经典使用场景

在语音合成领域，针对非母语口音的研究长期面临数据稀缺的挑战。ESLTTS数据集通过汇集来自31种母语背景的134位非英语母语者的语音样本，为说话人自适应文本转语音技术提供了关键资源。该数据集最经典的使用场景在于训练和评估能够准确模拟带有浓重口音的说话人语音的TTS模型，其包含的约5分钟适应集和10条测试集，使得研究者能够系统探索模型在跨语言口音条件下的泛化能力与保真度。

解决学术问题

该数据集有效解决了语音合成研究中一个长期存在的学术问题：即传统TTS模型在模仿非母语口音时表现不佳的局限性。通过提供大规模、多语言背景的非标准口音语音数据，ESLTTS使得研究者能够深入探究口音变异对声学特征的影响，从而推动开发更具鲁棒性和包容性的说话人自适应算法。其意义在于打破了以标准口音为中心的研究范式，为构建真正全球化的语音技术奠定了数据基础。

实际应用

在实际应用层面，ESLTTS数据集为开发面向全球用户的智能语音产品提供了重要支撑。例如，在教育科技领域，可用于构建能够模仿特定学习者母语口音的英语发音辅导工具；在辅助技术中，帮助有语言障碍或特定口音的用户生成更自然、更具个人特色的合成语音；此外，在多媒体内容创作和本地化服务中，该数据集也能助力生成更符合区域听众习惯的语音内容，提升用户体验。

数据集最近研究