Multi-Talker-SD

github2025-09-17 更新2025-09-28 收录

下载链接：

https://github.com/wyhzhen6/MULTI-TALKER-SD

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-Talker-SD是一个大规模双语（英语-普通话）多说话人会议数据集，旨在支持说话人日志和会议转录研究。该数据集包含1000个模拟会议，每个会议有10-30名参与者，平均对话时长约20分钟，捕捉了真实的说话人重叠、轮流模式和跨语言交互。音频使用AIShell-1和LibriSpeech的话语合成，结合混响和噪声注入生成高保真多说话人录音。数据集还包括详细的说话人元数据，如性别、语言、会话类型和话语时间，支持受控实验和消融研究。

Multi-Talker-SD is a large-scale bilingual (English-Mandarin) multi-speaker meeting dataset designed to support research on speaker diarization and meeting transcription. This dataset comprises 1000 simulated meetings, each involving 10 to 30 participants, with an average dialogue duration of approximately 20 minutes. It captures realistic speaker overlaps, turn-taking patterns, and cross-language interactions. The audio is synthesized using utterances from AIShell-1 and LibriSpeech, combined with reverberation and noise injection to generate high-fidelity multi-speaker audio recordings. The dataset also includes detailed speaker metadata such as gender, language, conversation type, and utterance timestamps, enabling controlled experiments and ablation studies.

创建时间：

2025-09-08

原始信息汇总

Multi-Talker-SD 数据集概述

数据集简介

Multi-Talker-SD 是一个大规模双语（英语-普通话）多人会议数据集，旨在支持说话人日志和会议转录研究。该数据集包含 1000 个模拟会议，每个会议有 10-30 名参与者，平均对话时长约 20 分钟，捕捉了真实的说话人重叠、轮换模式和多语言交互。音频使用 AIShell-1 和 LibriSpeech 的语音片段合成，结合混响和噪声注入，生成高保真多说话人录音。数据集还包括详细的说话人元数据，如性别、语言、会话类型和语音片段时间信息，支持受控实验和消融研究。

数据集组成

前端：说话人日志，包括元数据管理和支持日志的分段。
后端：声学模型构建，包括合成流水线、噪声/混响建模和音频生成。

数据下载与使用

下载数据

使用脚本目录中的下载脚本获取相应数据集。例如： bash bash script/download_librispeech.sh <your_save_dir>

点源和扩散场噪声数据可从以下链接下载：https://1drv.ms/u/c/969dad2e7ff5ab41/EcV68xcR9pVHsd3yNWSTzxkBkKvfLwTQsOluZJOnzf1GFA?e=OnfDv5

环境依赖

faster_whisper==1.1.1（核心组件；建议按照 faster_whisper 安装所有相关库）
soundfile
tqdm
torch
torchaudio

使用提供的 requirements.txt 快速设置 Conda 环境： bash conda create -n diarization_env python=3.10 -y conda activate diarization_env pip install -r requirements.txt

运行脚本

运行 run.sh，关键参数包括：

exp_dir：保存生成的 WAV 文件的目录
librispeech_dir：LibriSpeech 路径；确保此目录中存在 SPEAKERS.TXT
aishell_1_dir：AIShell-1 路径；确保 resource_aishell 文件夹存在，包含 speaker.info 和 lexicon.txt
point_noise_path：点源噪声数据路径
diffuse_noise_path：扩散场噪声数据路径

关键配置

在 config/config.yaml 中配置：

iteration：迭代次数。程序将尝试此数量的迭代，每次迭代最多生成一个 WAV 文件。生成的 WAV 文件总数将小于或等于迭代次数。
max_examples：要生成的 WAV 文件的最大数量。要生成确切数量的 WAV 文件，调整此参数。例如，设置为 100 将生成恰好 100 个 WAV 文件。它必须小于迭代次数；否则将被忽略。

资源链接

数据集：Multi-Talker-SD (Hugging Face)

搜集汇总

数据集介绍

构建方式

在语音识别与说话人日志研究领域，Multi-Talker-SD数据集通过精心设计的合成流程构建而成。该数据集基于AIShell-1和LibriSpeech两个权威语音库的原始语音片段，采用多说话人混合合成技术，模拟真实会议场景中的语音交互。合成过程中引入了混响效应和背景噪声注入，包括点源噪声与扩散场噪声，以增强音频的真实性和多样性。每个会议会话包含10至30名参与者，平均时长约20分钟，严格遵循自然对话中的说话人重叠与话轮转换模式，确保数据在声学特性与语言交互层面的高保真度。

使用方法

研究人员可通过Hugging Face平台直接下载Multi-Talker-SD数据集，或利用项目提供的脚本自动化获取LibriSpeech与AIShell-1原始数据。使用前需配置Python 3.10环境，并安装faster_whisper、torchaudio等核心依赖库。通过修改config.yaml中的迭代次数与生成文件数参数，可灵活控制数据生成规模。运行run.sh脚本时需指定音频输出路径、噪声文件路径及原始语音库目录，系统将自动完成多说话人音频合成与标注文件生成，为说话人日志模型训练与评估提供端到端支持。

背景与挑战

背景概述

在语音处理领域，说话人日志（Speaker Diarization）技术旨在解决多说话人场景下的语音分割与识别问题，对会议转录、智能助手等应用具有重要价值。Multi-Talker-SD数据集由研究团队于近年开发，专注于模拟大规模双语（英语-普通话）会议环境，包含1000场合成会议数据，每场涉及10至30名参与者，平均时长约20分钟。该数据集基于AIShell-1和LibriSpeech语音库，通过混响与噪声注入技术生成高保真音频，并提供了说话人性别、语言类型等元数据，为说话人日志模型的鲁棒性评估与多语言交互研究提供了重要支撑。

当前挑战

说话人日志任务面临的核心挑战包括高比例说话人重叠场景下的语音分离精度、多语言混合对话的跨语言歧义消除，以及长时对话中的说话人身份连续性维护。在数据集构建过程中，需平衡合成数据的真实性与可控性：一方面需模拟真实会议中的即兴对话节奏与声学干扰，另一方面要确保元数据标注的粒度与一致性。此外，双语语音资源的对齐、噪声模型的物理合理性，以及大规模合成流程的计算效率，均是实现高质量数据生成的关键难点。

常用场景

经典使用场景

在语音处理领域，Multi-Talker-SD数据集为说话人日志研究提供了关键支持。该数据集通过模拟10至30人的多语言会议场景，包含英语和普通话双语交互，平均时长约20分钟，覆盖了真实环境中的说话人重叠和话轮转换模式。研究人员利用其合成的高保真音频数据，结合背景噪声和混响效果，能够有效训练和评估说话人分离算法，尤其在复杂会议环境下提升日志系统的鲁棒性。

解决学术问题

该数据集主要解决了多说话人场景下的声学建模难题，如说话人重叠识别、跨语言对话分割以及噪声干扰下的日志准确性提升。通过提供详细的说话人元数据（包括性别、语言类型和时序信息），支持可控实验和消融研究，推动了说话人日志算法在真实环境中的泛化能力，对语音识别和对话分析领域的理论进展具有显著意义。

实际应用

在实际应用中，Multi-Talker-SD可服务于智能会议系统、远程协作平台和多语言客服场景。其合成的多说话人音频能够模拟企业会议或教育讨论中的复杂交互，帮助开发自动会议纪要生成工具，提升转录效率。同时，该数据集的双语特性为跨境商务或国际组织的语音技术适配提供了测试基础。

数据集最近研究