REAL-T

github2026-03-31 更新2026-04-01 收录

下载链接：

https://github.com/REAL-TSE/REAL-TSE-Challenge

下载链接

链接失效反馈

官方服务：

资源简介：

REAL-T是第一个专门为真实世界条件下的目标说话人提取（TSE）设计的对话中心数据集。它基于说话人日记语料库构建，自然包含重叠语音、可注册片段和复杂的对话行为。数据集特点包括多语言（英语和普通话录音）、多类型（涵盖多样化的对话场景）和多注册（来自对话不同部分的多个注册话语）。

REAL-T is the first dialogue-centric dataset specifically designed for target speaker extraction (TSE) under real-world conditions. It is constructed from speaker diary corpora, and naturally contains overlapping speech, registerable segments, and complex conversational behaviors. The dataset features three core attributes: multilingual support with recordings in both English and Mandarin, diverse conversational scenarios covering a wide range of real-world dialogue types, and multi-register settings including multiple registered utterances from different parts of the conversations.

创建时间：

2026-03-26

原始信息汇总

REAL-T 数据集概述

数据集简介

REAL-T 是首个专为真实世界条件下目标说话人提取任务设计的、以对话为中心的数据集。该数据集旨在解决现有合成数据集（如 LibriMix、WSJMix）在声学真实性和对话动态性上的不足，这些不足包括缺乏自发性语音、重叠对话轮次和环境噪声等真实交互特征。

核心特征

多语言：包含英语和普通话的录音。
多场景：涵盖多样化的对话场景。
多注册话语：提供来自对话不同部分的多个注册话语片段，用于说话人注册。

数据构成

数据集目前提供一个官方的评估划分：

DEV：作为本仓库中使用的、以对话为中心的开发基准集。

评估发现

在 REAL-T 上的评估表明，现有的目标说话人提取模型性能显著下降，突显了需要针对真实对话语音开发更鲁棒的方法。

获取方式

DEV 集需通过 Google Drive 手动下载。

下载地址：https://drive.google.com/file/d/1uGTcTfRjOdqPa4PJAhjrXYLzxbGVy6pY/view?usp=sharing

预训练模型

论文中评估的 BSRNN 模型检查点可通过 Google Drive 获取。

下载地址：https://drive.google.com/uc?export=download&id=1M4UqK2A2EeHmQ0pCevYqBgaYn3RvklgC

联系信息

如有问题，请联系：shuaiwang@nju.edu.cn

搜集汇总

数据集介绍

构建方式

在目标说话人提取研究领域，现有合成数据集难以捕捉真实对话的声学复杂性和动态交互。REAL-T数据集通过创新性地利用说话人日志语料库进行构建，旨在弥合这一差距。其构建过程从多语言、多场景的真实对话录音出发，经过精心筛选和标注，保留了自然发生的语音重叠、说话人转换以及环境噪声等关键特征。数据集特别设计了多段注册话语，模拟了实际应用中从对话不同部分提取说话人特征的场景，从而为模型提供了更为贴近现实世界的训练与评估环境。

特点

REAL-T数据集的核心特点在于其高度还原了真实对话的复杂性。它不仅包含了英语和普通话的双语录音，还覆盖了多样化的对话场景，确保了数据的广泛代表性。数据集天然蕴含了语音重叠、非规整的说话人轮换以及自发性言语等真实对话元素，并提供了来自对话不同部分的多个注册话语片段，这为评估模型在复杂条件下的鲁棒性创造了条件。相较于以往的合成或半合成数据集，REAL-T所呈现的声学环境和对话动态对现有目标说话人提取模型构成了显著挑战，揭示了其在真实场景下的性能局限。

使用方法

为便于研究社区使用，REAL-T提供了标准化的评估流程。用户首先需按照指南配置环境并下载官方开发集数据。数据集的使用主要围绕目标说话人提取模型的推理与评估展开。通过配套的脚本，用户可以便捷地加载数据集，运行模型推理以分离目标说话人语音，并利用集成的评估工具链进行多维度性能分析。该工具链能够自动计算包括转录错误率、说话人相似度、语音质量以及时序精度在内的多项指标，最终生成综合性的评估报告，为模型在真实对话场景下的性能提供了全面、客观的衡量标准。

背景与挑战

背景概述

目标说话人提取作为语音分离领域的关键分支，旨在从多人混合语音中准确分离出特定目标说话人的语音流。传统研究高度依赖如LibriMix和WSJMix等合成数据集，这些数据集虽在受控环境下表现优异，却难以捕捉真实对话中复杂的声学特性与动态交互。为弥合这一差距，研究社区相继推出了REAL-M和LibriCSS等数据集，试图引入更贴近现实的语音重叠与环境噪声，然而它们在自然对话的随机性、说话人轮转的不规则性以及背景条件的真实性方面仍存在局限。鉴于此，由南京大学等机构的研究团队于2025年推出的REAL-T数据集，首次专注于构建真实对话场景下的目标说话人提取基准。该数据集基于说话人日志语料库构建，涵盖英语和汉语双语种、多类型对话场景，并天然包含语音重叠、多段注册语音及复杂的对话行为，显著提升了模型在真实世界应用中的评估效度，对推动鲁棒性语音处理技术的发展具有重要影响力。

当前挑战

REAL-T数据集致力于解决目标说话人提取在真实对话场景下面临的核心挑战，即如何从包含自发语音、不规则重叠、环境噪声及多说话人动态交互的复杂声学混合物中，精准分离出目标说话人的语音流。这一问题的难点在于真实对话的声学信号具有高度非平稳性和不可预测性，远超合成数据的简化假设。在数据集构建过程中，研究团队亦面临多重挑战：首先，需从现有说话人日志语料中筛选并构建同时包含清晰注册语音与自然重叠对话的样本，确保数据既真实又适用于模型训练与评估；其次，处理多语言、多场景录音带来的声学多样性，要求精细的标注与对齐，以保障数据质量与一致性；此外，设计能够反映真实对话动态（如随机插话、语音稀疏性）的评估协议，也是一项复杂任务，需要平衡现实性与可重复性。

常用场景

经典使用场景

在语音信号处理领域，目标说话人提取技术旨在从复杂声学场景中分离出特定说话人的语音。REAL-T数据集作为首个专注于真实对话场景的基准，其经典使用场景在于评估和优化目标说话人提取模型在现实环境中的鲁棒性。该数据集通过包含多语言、多场景的真实对话录音，模拟了自然交谈中常见的语音重叠、自发发言及背景噪声，为研究者提供了一个贴近实际应用的测试平台，推动了从合成数据到真实场景的技术迁移。

实际应用

在实际应用层面，REAL-T数据集直接服务于需要高精度语音分离技术的场景，如智能会议系统、助听设备及语音助手。在这些场景中，系统必须从多人同时发言、背景嘈杂的环境中准确提取目标用户语音，以确保语音识别与交互的可靠性。数据集模拟的真实对话条件有助于开发出更适应实际需求的算法，提升相关产品在复杂声学环境下的性能，从而改善用户体验，推动语音技术在消费电子、医疗辅助等领域的落地应用。

衍生相关工作

围绕REAL-T数据集，已衍生出一系列经典研究工作，主要集中在提升目标说话人提取模型对真实对话的适应性。例如，基于该数据集的评估揭示了BSRNN等模型在真实场景下的性能瓶颈，促使研究者探索更有效的说话人信息融合策略，如说话人嵌入与时频特征交互的对比研究。这些工作不仅深化了对模型因果性与非因果性设计的理解，还推动了如wesep-real-tse等开源工具包的开发，为后续研究提供了标准化评估框架，持续引领真实场景语音分离技术的发展方向。

以上内容由遇见数据集搜集并总结生成