LibriConvo-raw
收藏Hugging Face2025-10-31 更新2025-11-01 收录
下载链接:
https://huggingface.co/datasets/gedeonmate/LibriConvo-raw
下载链接
链接失效反馈官方服务:
资源简介:
LibriConvo-Raw是LibriConvo语料库的完整未分割版本,包含了自然的对话流程和上下文连贯性,适用于训练和评估对话语音系统,包括多说话人自动语音识别、说话人分离和重叠检测。数据集由1496个对话组成,总时长约240.1小时,共有830个不同的说话人。数据集采用16kHz采样率的单声道WAV格式,大约40%的对话包含了房间脉冲响应卷积。
LibriConvo-Raw is the complete unsegmented version of the LibriConvo corpus. It retains natural conversational flow and contextual coherence, and is suitable for training and evaluating conversational speech systems including multi-speaker automatic speech recognition, speaker separation, and overlapping speech detection. This dataset comprises 1496 dialogues, with a total duration of approximately 240.1 hours and 830 distinct speakers. All audio files are in mono-channel WAV format with a 16 kHz sampling rate, and approximately 40% of the dialogues have been convolved with room impulse responses.
创建时间:
2025-10-31
原始信息汇总
LibriConvo-Raw 数据集概述
数据集简介
LibriConvo-Raw 是 LibriConvo 语料库的完整长度、未分段版本,这是一个使用说话人感知对话模拟方法创建的双说话人模拟对话数据集。该数据集专为会话语音系统的训练和评估而设计,特别适用于多说话人语音识别、说话人日志和重叠检测任务。
核心特性
- 完整对话结构:包含完整的模拟对话,保留自然的时间结构、停顿和重叠
- 说话人分离划分:采用说话人不重叠的数据划分方式
- 声学增强:约40%的对话包含房间脉冲响应卷积处理
- 高质量音频:采样率16kHz,WAV格式单声道音频
数据规模
| 数据划分 | 对话数量 | 时长(约) |
|---|---|---|
| 训练集 | 1,199 | 193.7小时 |
| 验证集 | 137 | 23.1小时 |
| 测试集 | 160 | 23.4小时 |
| 总计 | 1,496 | 240.1小时 |
数据特征
- 唯一说话人数量:830
- 总数据大小:31,206,867,652.516字节
- 下载大小:29,092,766,585字节
数据结构
每个数据行代表一个完整的双说话人对话,包含以下字段:
| 字段名 | 数据类型 | 描述 |
|---|---|---|
conversation_id |
字符串 | 唯一对话标识符 |
split |
字符串 | 数据划分(train/validation/test) |
utterance_idx |
整数序列 | 有序的语句索引列表 |
abstract_symbol |
字符串序列 | 说话人标签序列(A或B) |
start_time |
浮点数序列 | 每个语句的开始时间(秒) |
end_time |
浮点数序列 | 每个语句的结束时间(秒) |
text |
字符串序列 | 每个语句的转录文本 |
duration_sec |
浮点数序列 | 每个语句的持续时间(秒) |
rir |
布尔值 | 是否应用了房间脉冲响应 |
audio |
音频 | 完整对话的波形数据(16kHz) |
技术特点
- 基于LibriTTS语料库,按书籍组织语句以保持叙述连续性
- 使用CallHome统计数据进行停顿建模
- 应用压缩技术移除过长静音同时保留轮换动态
- 通过空间合理性排序的房间脉冲响应选择程序增强声学真实性
适用场景
- 端到端对话建模
- 长格式语音识别
- 说话人日志预训练
- 说话人交互分析
搜集汇总
数据集介绍
构建方式
在语音处理领域,LibriConvo-raw数据集通过创新的说话人感知对话模拟技术构建,其核心在于利用LibriTTS语料库中的书籍内容确保叙述连贯性。该构建过程整合了CallHome语料中的停顿统计模型,对过长静音进行压缩处理以保留自然对话节奏,并引入基于空间合理性的房间脉冲响应筛选机制,最终形成包含240.1小时时长的完整对话序列。
特点
该数据集显著特征体现在其完整保留原始对话的时间结构,包含自然停顿与重叠发音现象,提供830位说话人的声学多样性。所有音频均以16kHz采样率存储,约40%的对话经过房间声学增强处理,其说话人分离的数据划分策略为模型泛化能力评估提供了坚实基础,特别适合研究多说话人交互动态。
使用方法
研究者可通过HuggingFace平台直接加载数据集进行端到端对话建模,其完整对话格式支持长时语音识别与说话人日志任务的联合训练。数据字段包含精确的时间对齐标注与说话人符号序列,便于开发重叠语音检测算法,验证集与测试集的说话人互斥特性确保评估结果的可靠性。
背景与挑战
背景概述
LibriConvo-raw数据集由Máté Gedeon与Péter Mihajlik于2025年构建,作为模拟双人对话语音资源的核心代表。该数据集基于Speaker-Aware Conversation Simulation(SASC)方法生成,旨在解决多说话人自动语音识别、说话人日志及重叠检测等任务中的自然对话建模需求。通过整合LibriTTS朗读语料并引入CallHome统计模型优化停顿节奏,其设计确保了叙事连贯性与声学真实性,覆盖240.1小时对话数据,显著推动了对话语音系统的端到端训练与评估范式发展。
当前挑战
在对话语音分析领域,多说话人重叠交互与长时序上下文依赖构成核心难题,LibriConvo-raw通过保留完整对话结构与自然时序对此类问题提出挑战。数据集构建过程中需攻克声学模拟的物理一致性难题,例如基于空间合理性的房间脉冲响应筛选机制;同时需平衡语音压缩与停顿动态的保留,确保模拟对话既消除冗余静默又维持真实对话流。此外,830名说话人的声学特性离散化分割要求严格的说话人无关数据划分策略,以保障模型泛化能力。
常用场景
经典使用场景
在语音处理领域,LibriConvo-raw数据集凭借其完整的对话结构和自然时序特征,成为多说话人语音识别研究的理想平台。该数据集通过模拟真实对话中的停顿与重叠现象,为模型训练提供了接近自然交互的语音素材,特别适用于分析说话人转换模式和重叠语音的识别问题。研究者可利用其长时对话数据探索上下文相关的语音理解机制,推动对话系统对连续语音流的处理能力。
解决学术问题
该数据集有效解决了传统语音数据在对话场景中的局限性问题,为多说话人语音识别与说话人日志研究提供了标准化基准。通过保持原始对话的时间结构和声学特性,它使研究者能够系统评估模型在真实对话环境下的表现,特别是在处理说话人重叠、长时依赖关系等关键挑战方面。其严格的声音分离划分策略进一步确保了模型泛化能力的可靠验证。
衍生相关工作
基于该数据集衍生的经典研究包括端到端多说话人语音识别架构的优化,以及说话人感知的对话生成模型开发。其提供的完整对话时序信息催生了新型的说话人日志算法,同时为跨说话人的语音表征学习提供了重要基准。相关研究不仅推进了对话语音处理的技术边界,也为语音合成与识别融合系统提供了新的设计思路。
以上内容由遇见数据集搜集并总结生成



