LibriQuote

Name: LibriQuote
Creator: Deezer Research, Paris, France and LORIA, CNRS, Nancy, France
Published: 2025-09-04 18:05:06
License: 暂无描述

arXiv2025-09-04 更新2025-09-06 收录

下载链接：

https://github.com/deezer/libriquote

下载链接

链接失效反馈

官方服务：

资源简介：

LibriQuote 是一个由 Deezer Research 和 LORIA-CNRS 共同创建的英语语料库，从有声读物中提取，旨在用于细调和评估具有表现力的零样本语音合成系统。该数据集包含 12.7K 小时的非表现性语音和 5.3K 小时的主要表现性语音，每个表现性语音都附有上下文信息和描述语音的动词和副词的伪标签。此外，还提供了一个具有挑战性的 7.5 小时测试集，用于评估语音合成系统的表现力。LibriQuote 数据集对于训练和评估表现力语音合成系统具有重要意义，可以促进语音合成技术的进一步发展。

LibriQuote is an English corpus co-created by Deezer Research and LORIA-CNRS, extracted from audiobooks, and designed for fine-tuning and evaluating expressive zero-shot speech synthesis systems. The dataset contains 12.7K hours of non-expressive speech and 5.3K hours of predominantly expressive speech, where each expressive speech utterance is paired with contextual information and pseudo-labels of verbs and adverbs describing the speech. In addition, a challenging 7.5-hour test set is provided for evaluating the expressiveness of speech synthesis systems. The LibriQuote dataset is of great significance for training and evaluating expressive speech synthesis systems, and can promote the further development of speech synthesis technology.

提供机构：

Deezer Research, Paris, France and LORIA, CNRS, Nancy, France

创建时间：

2025-09-04

原始信息汇总

LibriQuote 数据集概述

数据集简介

LibriQuote 是一个用于表达性零样本语音合成的虚构角色语音数据集，包含从小说中提取的角色对话和叙述段落语音片段。

核心内容

数据来源：基于 LibriVox 录音，使用 LibriLight 音频文件作为后端音频文件
音频格式：16KHz 采样率
数据组成：包含叙述段落和小说角色引语的语音片段

数据集获取

主存储位置：https://huggingface.co/datasets/gasmichel/LibriQuote
测试音频样本：https://huggingface.co/datasets/gasmichel/LibriQuote/tree/main/test_audios

数据处理与评估

处理工具：提供 Python 工具类处理 LibriQuote 数据
评估脚本：包含用于在 LibriQuote-test 上基准测试 TTS 系统的评估脚本

引用信息

bibtex @misc{Michel2025LibriQuote, title={LibriQuote: A Speech Dataset of Fictional Character Utterances for Expressive Zero-Shot Speech Synthesis}, author={Gaspard Michel and Elena V. Epure and Christophe Cerisara}, year={2025}, eprint={2509.04072}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2509.04072} }

搜集汇总

数据集介绍

构建方式

LibriQuote数据集通过系统化流程构建，首先从LibriVox获取英文虚构类有声读物录音，并匹配古腾堡计划的原始文本。采用多阶段对齐方法，包括音频转录、文本-音频对齐及引文检测，确保每个语音片段与书籍中的对应引文精确匹配。最终分离出中性叙述片段和表达性角色对话片段，并附加上下文语境信息。

特点

该数据集包含12,723小时中性叙述和5,359小时表达性角色对话，覆盖2,991本书籍和3,314名说话人。其核心特色在于为每个引文片段提供叙事语境窗口及自动标注的言语动词和副词伪标签，例如“他轻声低语”，这些标签经过人工验证。情感分析显示引文片段涵盖愤怒、悲伤、快乐等多种情感，且口音多样性显著。

使用方法

LibriQuote专为零样本表达性语音合成系统的微调与评测设计。用户可使用其训练集优化TTS模型的表现力生成能力，并通过提供的测试集评估模型在保留音色前提下合成表达性语音的效果。测试集包含7.5小时引文音频及对应中性参考语音，支持跨句子生成任务。附加的语境信息和伪标签可用于研究叙事语境对语音表达的预测作用。

背景与挑战

背景概述

LibriQuote数据集由Deezer Research与法国洛林大学实验室（LORIA）联合研发，于2025年9月正式发布。该数据集聚焦于表达性零样本语音合成领域，核心研究问题在于解决传统语音合成系统在情感表达和风格多样性上的局限性。通过从LibriVox公开领域有声读物中提取虚构角色对话片段，该数据集构建了包含5,300小时表达性语音和12,700小时中性叙述语音的大规模语料库，显著推动了多模态叙事理解与语音合成技术的交叉研究。

当前挑战

领域挑战主要体现在表达性语音合成的细粒度控制问题：需在保持音色一致性的同时精准复现文本中隐含的情感、语调和修辞特征。构建过程中的技术挑战包括多模态数据对齐的复杂性——需将音频片段与古登堡计划原始文本进行精确匹配，并利用自然语言处理技术从叙事语境中自动提取描述性动词和副词伪标签。此外，数据质量控制要求克服LibriVox录音中存在的口音多样性、音频质量不均以及 quotation-detection 系统的误差传播问题。

常用场景

经典使用场景

在语音合成研究领域，LibriQuote数据集为表达性零样本语音合成提供了关键支持。其经典应用场景包括训练和评估能够根据中性参考语音生成具有丰富情感和风格变化的合成系统，通过分离叙述性和角色对话片段，系统能更精准地学习表达性语音的韵律特征。

解决学术问题

该数据集解决了语音合成中表达性语音数据稀缺的核心问题，为研究零样本条件下情感、语调和风格迁移提供了标准化基准。其标注的叙事上下文和伪标签（如说话动词和副词）显著提升了模型对语境化表达的理解能力，推动了合成语音自然度和情感一致性的学术进展。

衍生相关工作

该数据集催生了多项创新研究，例如基于叙事上下文的情感预测模型、结合大语言模型的语音动词提取方法，以及数据高效训练策略。相关工作扩展至跨模态叙事分析领域，为语音合成与自然语言处理的融合提供了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集