LibriConvo

Name: LibriConvo
Creator: 布达佩斯技术与经济大学电信与人工智能系
Published: 2025-10-27 21:35:22
License: 暂无描述

arXiv2025-10-27 更新2025-10-29 收录

下载链接：

https://huggingface.co/gedeonmate/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

LibriConvo 是一个基于语音感知会话模拟（SASC）的模拟多说话人对话数据集，旨在支持说话人分割和自动语音识别（ASR）系统的训练和评估。与先前主要依赖语义不连贯的语句和不合理的时间间隔的资源不同，LibriConvo 确保语义连贯性和现实的对话时间。该数据集包含 240.1 小时的音频，涵盖 1,496 个对话，涉及 830 个独特的说话人，并以说话人非重叠的方式分割，以便进行稳健的评估。

LibriConvo is a simulated multi-speaker conversation dataset based on Speech-Aware Session Simulation (SASC), designed to support the training and evaluation of speaker diarization and automatic speech recognition (ASR) systems. Unlike previous resources that primarily rely on semantically incoherent utterances and unrealistic temporal intervals, LibriConvo ensures semantic coherence and realistic conversational timing. This dataset contains 240.1 hours of audio, covering 1,496 conversations involving 830 unique speakers, and is segmented in a speaker-non-overlapping manner to enable robust evaluation.

提供机构：

布达佩斯技术与经济大学电信与人工智能系

创建时间：

2025-10-27

搜集汇总

数据集介绍

构建方式

在语音处理领域，模拟真实对话动态对于提升多说话人识别与自动语音识别系统的性能至关重要。LibriConvo数据集的构建采用了基于说话人感知的对话模拟框架，通过整合CallHome语料库的时序统计特征，并应用外部语音活动检测模型优化边界标注的准确性。该方法对检测到的静默段进行时间压缩处理，以消除不自然的长时间停顿，同时利用LibriTTS语料库中按书籍组织的语句来维持语义连贯性。此外，通过基于空间合理性的房间脉冲响应选择策略，增强了声学环境的真实性，最终生成了包含240.1小时音频的1,496个对话。

特点

该数据集在模拟多说话人对话方面展现出显著优势，其核心特点在于实现了语义连贯性与时序真实性的统一。通过将同一书籍的语句组织为对话单元，确保了说话人轮次间的上下文关联，有效克服了传统合成数据中语义断裂的局限。在声学层面，采用几何属性加权评分机制筛选房间脉冲响应，平衡了空间合理性与多样性，避免了非典型麦克风布局带来的失真。数据集还严格遵循说话人互斥的划分原则，将830名独特说话人分配到训练、验证和测试子集，为模型泛化能力评估提供了可靠基础。

使用方法

为支持多说话人语音处理研究，该数据集提供两种版本：分段版本将对话切割为30秒以内的片段，便于自动语音识别模型的训练与评估；完整版本则保留原始对话结构，适用于说话人日志分析等任务。在自动语音识别任务中，可采用序列化输出训练方法，通过插入说话人转换标记处理重叠语音，同时保持语句级连贯性。对于说话人日志任务，数据集支持端到端模型与模块化管线的性能对比，其提供的真实时序动态与声学特性为模型在复杂对话场景中的鲁棒性验证创造了条件。

背景与挑战

背景概述

在语音处理领域，多说话人对话数据的稀缺性长期制约着自动语音识别和说话人日志系统的进步。LibriConvo数据集由布达佩斯技术与经济大学的研究团队于2025年提出，其核心创新在于通过说话人感知对话模拟技术，将LibriTTS语料库中的朗读语音转化为具有语义连贯性和真实时序特征的模拟对话。该数据集包含240.1小时音频、1496段对话及830位独特说话人，通过声学环境模拟和说话人分离的数据划分策略，为多模态语音研究提供了高度可控且贴近真实场景的基准平台。

当前挑战

该数据集致力于解决多说话人语音处理中对话动态建模的复杂性挑战，包括重叠语音的精确分离与说话人身份连续性保持。在构建过程中面临三重核心难题：基于CallHome语料的时间边界标注存在统计偏差，需通过外部语音活动检测与时间压缩算法重构自然停顿分布；为确保语义连贯性，采用按书籍组织LibriTTS语句的策略，克服了传统模拟对话中文本内容割裂的缺陷；针对声学真实性，设计房间脉冲响应筛选机制，通过空间合理性评分排除非常规麦克风布局，平衡真实性与多样性需求。

常用场景

经典使用场景

在语音处理领域，多说话人对话数据的稀缺性长期制约着相关技术的发展。LibriConvo数据集通过模拟真实对话的动态特征，为端到端说话人日志化和多说话人自动语音识别系统的训练与评估提供了标准化平台。其独特价值在于整合了语义连贯的文本内容与符合人类对话习惯的时间间隔，使得模型能够在接近真实场景的条件下学习说话人切换和重叠语音的处理能力。

实际应用

在工业应用层面，LibriConvo支撑的模型优化已延伸至智能会议系统、远程医疗问诊等实际场景。其模拟的多人对话模式能够有效训练医疗问诊系统中的说话人分离模块，确保医患对话记录的完整性。同时，基于该数据集开发的声学环境模拟技术，为车载语音助手在多噪声环境下的鲁棒性提升提供了关键训练数据，显著改善了复杂声学场景下的语音交互体验。

衍生相关工作

该数据集的创新方法论催生了系列重要研究。Sortformer模型通过引入排序损失函数重构了说话人日志化的监督范式，其端到端架构在LibriConvo上的优异表现启发了后续工作对序列建模的深入探索。同时，基于序列化输出训练的FastConformer架构成功将说话人变更标记融入多说话人ASR任务，为处理重叠语音提供了新的技术路径，这些衍生成果共同推动了对话语音处理技术的前沿发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集