medkit/simsamu

Name: medkit/simsamu
Creator: medkit
Published: 2025-01-06 16:37:07
License: 暂无描述

Hugging Face2025-01-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/medkit/simsamu

下载链接

链接失效反馈

官方服务：

资源简介：

Simsamu数据集包含用法语进行的模拟医疗调度对话的录音，这些录音被注释用于对话者分离和转录。这些对话是为了急诊医学实习生的培训而模拟的医疗调度呼叫。数据集共有61个音频文件，每个文件平均时长约3分11秒，总时长约为3小时15分钟。

The Simsamu dataset consists of recordings of simulated medical dispatch dialogs in French, annotated for diarization and transcription. These dialogs were created for the training of emergency medicine interns simulating a medical dispatch call. The dataset includes 61 audio files with an average duration of about 3 minutes and 11 seconds, totaling approximately 3 hours and 15 minutes.

提供机构：

medkit

原始信息汇总

Simsamu Dataset Summary

Overview

Language: French
License: MIT
Multilinguality: Monolingual
Task Categories:
- Automatic Speech Recognition
- Voice Activity Detection

Dataset Content

Recordings: 61 audio files of simulated medical dispatch dialogs.
Total Duration: 3 hours and 15 minutes.
Average Duration per Recording: 3 minutes and 11 seconds.
File Format: .m4a with 8KHz sample rate and 128 Kbps bitrate.
Annotations:
- Diarization data in .rttm files.
- Transcription data in .srt files.
Metadata: metadata.csv containing speaker IDs for callers and regulators.

Recording Setup

Dialogs simulate medical dispatch calls with interns playing different roles.
Situations and communication modes are randomly selected, including seven defined modes: shy, procedural, angry, cooperative, frightened, impassive, incomprehensible.
Acoustic characteristics differ between caller and regulator voices due to different recording methods.

搜集汇总

数据集介绍

构建方式

Simsamu数据集专为法语医疗调度对话场景设计，收录了模拟紧急医疗调度通话的录音。其构建过程依托于急救医学实习生的培训环节，受训者轮流扮演呼叫者与调度医生，模拟真实调度情境。每次通话前随机预设医疗场景（如交通事故、胸痛、烧伤等），并随机分配呼叫者与患者的关系（家人、朋友、同事等）及七种沟通模式（害羞、程序化、愤怒、合作、恐惧、冷漠、难以理解），呼叫者需依据指定模式调整表演方式。录音中，调度医生的声音通过麦克风直接采集，而呼叫者的声音经由电话网络传输后由电话扬声器重放，再被麦克风捕获，模拟真实调度录音中双方因环境差异导致的声学特性差异。数据集包含61段录音，总时长3小时15分钟，平均每段3分11秒，以8KHz采样率、128 Kbps比特率的.m4a格式存储。

使用方法

该数据集主要面向自动语音识别与语音活动检测任务，支持单语（法语）场景下的模型训练与评估。使用者可直接加载.m4a音频文件，结合对应的.rttm文件进行说话人日志分析，或利用.srt文件获取时间对齐的转录文本，用于端到端语音识别系统的开发。metadata.csv中的说话人身份信息便于进行说话人分离或角色分类实验。建议研究者将数据集划分为训练集与测试集，评估模型在模拟调度环境中的鲁棒性，尤其关注因信道差异导致的声学特征偏移。数据集以MIT许可证发布，可自由用于学术研究与商业应用，但需注意其法语单语特性及模拟场景的局限性。

背景与挑战

背景概述

在紧急医疗调度领域，准确理解与转录通话内容对于提升急救响应效率至关重要。medkit/simsamu数据集由法国研究团队创建，旨在模拟医疗调度对话的语音识别与说话人分离任务。该数据集包含61段法语模拟录音，总时长3小时15分钟，每段平均约3分11秒，采样率为8KHz。研究人员通过设计七种通信模式（如害羞、愤怒、恐惧等）和随机分配呼叫者与患者的关系，模拟了真实调度场景中的复杂交互。该数据集不仅为自动语音识别提供了高质量的标注，还因其独特的双通道录音设计，再现了调度员与呼叫者之间声学环境的差异，显著推动了法语医疗领域语音技术的进步。

当前挑战

当前数据集面临的核心挑战包括：首先，医疗调度场景中的语音识别需应对高度变化的声学环境，如呼叫者通过电话网络传输导致的音质退化与背景噪声干扰，这与调度员清晰直接的录音形成鲜明对比。其次，说话人分离任务因通信模式多样化（如冷漠或愤怒语气）而变得复杂，模型需区分不同情感状态下的语音特征。此外，数据集规模较小（仅61段录音），限制了深度学习模型的泛化能力。构建过程中，模拟场景需平衡随机性与真实性，确保七种通信模式覆盖全面，同时避免演员表演过度影响数据自然度。这些挑战要求模型具备鲁棒的声学适应性与情感感知能力。

常用场景

经典使用场景

Simsamu数据集收录了61段法语模拟医疗调度对话录音，总时长约3小时15分钟，平均每段约3分11秒。这些录音源自急诊医学实习生的培训场景，通过模拟真实调度呼叫中的医患对话，系统性地涵盖了道路事故、胸痛、烧伤等多种紧急情境。该数据集的核心用途在于支持自动语音识别与语音活动检测任务，其独特的双声道设计——调度员声音直接由麦克风捕捉，而呼叫方声音经电话网络传输后由扬声器重放——精准复现了真实调度录音中的声学差异，为构建鲁棒的语音处理模型提供了极具生态效度的训练与评估基准。

解决学术问题

该数据集直面医疗调度场景中语音处理的核心学术挑战：如何在噪声与信道失真的双重干扰下实现高精度的说话人日志与语音转录。通过模拟七种通信模式（如愤怒、恐惧、冷漠等），研究得以深入探究情感状态与声学特征之间的耦合关系及其对识别性能的影响。Simsamu填补了法语医疗调度语音资源匮乏的空白，使研究者能够系统评估现有模型在领域迁移、噪声鲁棒性及多说话人场景下的表现，推动了面向高风险通信环境的语音技术理论发展。

实际应用

在实际应用中，Simsamu数据集直接服务于紧急医疗调度系统的智能化升级。基于该数据训练的语音识别与说话人分离模型可被集成至调度中心，实现实时对话的自动转录与说话人标记，辅助调度员快速提取关键信息（如患者症状、位置、呼叫者身份）。此外，情感识别模块的引入有助于识别呼叫者的恐慌或愤怒状态，从而优化应急响应策略。该数据集还可用于开发语音驱动的培训评估系统，通过分析实习生的调度对话质量，提供客观的反馈与改进建议。

数据集最近研究