five

LibriQuote

收藏
github2025-09-07 更新2025-09-08 收录
下载链接:
https://github.com/deezer/libriquote
下载链接
链接失效反馈
官方服务:
资源简介:
LibriQuote是一个用于表达性零样本语音合成的虚构角色语音数据集,包含来自小说中角色富有表现力的语音片段,基于LibriVox录音并衍生自LibriLight音频文件

LibriQuote is a fictional character speech dataset for expressive zero-shot speech synthesis. It contains expressive speech segments from characters in novels, which is based on LibriVox recordings and derived from LibriLight audio files.
创建时间:
2025-09-04
原始信息汇总

LibriQuote 数据集概述

数据集简介

LibriQuote 是一个用于表达性零样本语音合成的虚构角色语音数据集,包含从小说中提取的角色对话和叙述段落语音片段。

核心内容

  • 数据来源:基于 LibriVox 录音,使用 LibriLight 音频文件作为后端音频文件
  • 音频格式:16KHz 采样率
  • 数据组成:包含叙述段落和小说角色引语的语音片段

主要用途

  • 表达性文本到语音(TTS)系统的基准测试
  • 零样本语音合成研究

获取方式

  • 数据集托管于 HuggingFace:https://huggingface.co/datasets/gasmichel/LibriQuote
  • 包含测试音频文件:https://huggingface.co/datasets/gasmichel/LibriQuote/tree/main/test_audios

相关资源

  • 论文地址:https://arxiv.org/pdf/2509.04072
  • 音频样本:https://libriquote.github.io/

数据处理工具

提供 Python 辅助类处理 LibriQuote 数据,位于 processing 文件夹

评估脚本

提供基准测试 TTS 系统的评估脚本,位于 evaluation 文件夹

引用信息

bibtex @misc{Michel2025LibriQuote, title={LibriQuote: A Speech Dataset of Fictional Character Utterances for Expressive Zero-Shot Speech Synthesis}, author={Gaspard Michel and Elena V. Epure and Christophe Cerisara}, year={2025}, eprint={2509.04072}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2509.04072} }

搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成研究领域,高质量数据集的构建对于推动零样本表达性合成至关重要。LibriQuote数据集源自LibriVox的有声读物资源,通过精心筛选小说中的角色对话段落与叙述性内容,构建出兼具情感表达与叙事多样性的语音语料。其音频文件基于LibriLight平台提供,采样率为16kHz,并采用自动化脚本与人工校验相结合的方式,确保语音片段与文本标注的精确对齐。
使用方法
研究者可通过HuggingFace平台直接获取LibriQuote-test子集的预处理音频与文本数据,用于合成系统的基准评估。数据集配套提供Python处理类与评估脚本,支持用户快速集成至现有TTS pipeline。对于全量数据的使用,需遵循LibriLight的音频下载规范,并利用项目提供的解压脚本高效提取目标片段,显著降低存储与计算开销。
背景与挑战
背景概述
在语音合成技术迈向更高表现力的发展进程中,LibriQuote数据集由Gaspard Michel等人于2025年构建,依托LibriVox开源音频资源与LibriLight后端支持,专注于小说角色语句的语音数据收集。该数据集旨在推动零样本表达性语音合成的研究,通过角色对话与叙述段落的对比,为情感建模与声音表现力分析提供重要基础,对推动个性化与富有表现力的语音生成系统具有显著影响力。
当前挑战
LibriQuote致力于解决表达性零样本语音合成中角色声音与情感一致性的核心问题,其挑战在于如何从有限样本中捕捉并泛化多样化的情感特征。在构建过程中,面临从LibriLight海量音频中精准提取角色语句与叙述片段的技术难题,需确保音频质量与文本对齐的准确性,同时处理采样率统一与数据标注一致性等复杂问题。
常用场景
经典使用场景
在语音合成研究领域,LibriQuote数据集通过提供小说角色对话与叙述性段落的平行语音数据,为零样本表达性语音合成系统提供了关键训练资源。其经典应用场景在于让模型学习虚构人物特有的情感表达模式和语音特征,从而在未见过的角色语音生成任务中实现高质量的情感迁移和风格适配。研究者可利用该数据集构建能够捕捉细微情感变化的神经网络模型,推动合成语音的自然度和表现力提升。
解决学术问题
该数据集有效解决了表达性语音合成中情感迁移和零样本学习的关键学术难题。通过提供大量标注准确的角色对话片段,它使研究者能够突破传统语音合成系统对大量目标说话人数据的依赖,实现了基于有限样本的情感风格建模。其重要意义在于建立了小说角色语音与情感特征的映射关系,为跨角色语音合成提供了可量化的评估基准,显著推动了个性化语音合成技术的发展。
实际应用
在实际应用层面,LibriQuote为有声读物制作、游戏角色配音和虚拟助手语音定制提供了技术支撑。基于该数据集训练的合成系统能够为不同小说角色生成具有辨识度的语音,大幅降低专业配音的人力成本。在辅助技术领域,它可用于开发具有情感交互能力的语音接口,增强视障用户的有声阅读体验。此外,在娱乐产业中,该技术可实现角色语音的跨语言本地化,保持原作情感特征的同时适应不同市场需求。
数据集最近研究
最新研究方向
在语音合成领域,LibriQuote数据集正推动零样本表达性合成的前沿探索。该数据集通过小说角色对话与叙述段落的对比结构,为情感嵌入模型提供了理想的验证平台,其中emotion2vec等表征学习技术展现出对角色情感状态的精准捕捉能力。当前研究聚焦于跨角色音色迁移与情感一致性保持的协同优化,相关进展已引发对多模态叙事生成系统的广泛关注,为交互式有声读物和虚拟角色配音技术奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作