AfriSpeech-Dialog

github2024-10-15 更新2024-10-17 收录

下载链接：

https://github.com/intron-innovation/AfriSpeech-Dialog

下载链接

链接失效反馈

官方服务：

资源简介：

AfriSpeech-Dialog 是一个用于评估自动语音识别（ASR）、说话人分割和多代理摘要生成的非洲口音英语对话数据集。该数据集包含约50个模拟的医疗和非医疗对话，涵盖代码转换。

AfriSpeech-Dialog is an African-accented English conversational dataset designed for evaluating automatic speech recognition (ASR), speaker diarization, and multi-agent summarization. This dataset contains approximately 50 simulated medical and non-medical dialogues, covering code-switching.

创建时间：

2024-09-22

原始信息汇总

AfriSpeech-Dialog 数据集概述

项目概述

AfriSpeech-Dialog 是一个用于评估自动语音识别（ASR）、说话人日志（speaker diarization）和多代理摘要（multi-agent summarization）在非洲口音（包括代码切换）的医疗和非医疗对话（长格式）上的项目。

主要贡献

引入了一个包含约50个模拟医疗/非医疗对话的数据集，带有非洲口音。
评估了最先进的（SOTA）说话人日志模型在口音语音上的表现。
比较了开放的多语言ASR模型（如Whisper、Conformer、MMS、XLS-R）在长格式口音语音上的表现，并与其他大陆的数据集进行基准测试。
评估了医疗/非医疗对话转录的多代理摘要。

数据设置

data/ 目录包含 afrispeech_dialog_v1_47.csv 中引用的音频样本。该CSV文件包含以下列：

path：音频文件的相对路径。
transcript：对话的文本转录。
提供了额外的列用于描述说话人的人口统计细节。

结果

ASR 结果

模型	WER (%)	医疗 WER (%)	非医疗 WER (%)
openai/whisper-medium	21.27	26.49	19.47
openai/whisper-large-v2	20.82	23.74	19.81
openai/whisper-large-v3	20.38	23.81	19.19
openai/whisper-large-v3-turbo	21.93	25.58	20.67
distil-whisper/distil-large-v2	25.38	30.43	23.63
distil-whisper/distil-large-v3	21.20	25.67	19.58
Crystalcareai/Whisper-Medicalv1	21.21	25.76	19.63
Na0s/Medical-Whisper-Large-v3	30.51	34.90	28.97
nvidia/parakeet-rnnt-1.1b	28.16	34.03	26.13
nvidia/parakeet-ctct-1.1b	28.97	34.16	27.19
nvidia/parakeet-tdt-1.1b	28.69	33.57	27.01
nvidia/canary-1b	22.82	27.40	21.25
nvidia/stt_en_conformer_ctc_large	35.92	41.98	33.84
nvidia/stt_en_fastconformer_transducer_large	37.69	45.36	35.05
nvidia/parakeet-tdt_ctc-110m	21.89	27.71	19.89
facebook/mms-1b-all	61.75	69.04	59.22

说话人日志结果

模型	DER (%)
deepgram-nova	14.21
pyannote/speaker-diarization-3.1	21.30
soniox	20.05
Revai/reverb-diarization-v2	26.87
AssemblyAI	12.72

摘要结果

模型	BERT_SOCRE(F1) (%)	LLM EVAL (%)
Gpt4o	90.57	73.83
Gpt3.5-turbo	89.99	66.83
Claude_Sonnet	88.30	72.17
google/gemma-2-9b	84.68	73.00
m42-health/Llama3-Med42-8B	90.46	69.67
Meta-Llama-3.1-8B-Instruct	85.52	69.83
meta-llama/Llama-3.2-3B-Instruct	84.92	64.83
OpenMeditron-Meditron3-8B	89.83	60.50
microsoft/Phi-3-mini-4k-instruct	88.00	51.67

搜集汇总

数据集介绍

构建方式

AfriSpeech-Dialog数据集的构建基于约50个模拟的医疗与非医疗对话，这些对话具有非洲口音，并包含代码切换现象。数据集的构建过程涉及对这些对话进行录音，并生成相应的文本转录。此外，数据集还提供了关于说话者的额外人口统计信息，以丰富数据集的多样性和应用场景。

使用方法

使用AfriSpeech-Dialog数据集时，首先需创建一个conda环境并安装必要的依赖项。数据集的音频样本和转录文本存储在`data/`目录下，可通过`afrispeech_dialog_v1_47.csv`文件访问。实验运行通过`bin/main_predictions.py`脚本进行，支持ASR、说话者分割和摘要任务。实验结果将保存在`results/`目录中，格式为模型名称和任务类型的组合。

背景与挑战

背景概述

AfriSpeech-Dialog数据集由一支专注于自动语音识别（ASR）、说话人分割（speaker diarization）和多代理摘要（multi-agent summarization）的研究团队创建，旨在评估这些技术在非洲口音的长篇医疗和非医疗对话中的表现。该数据集包含了约50个模拟的非洲口音对话，涵盖了代码转换（code-switching）现象。通过对比现有最先进的（SOTA）模型，如Whisper、Conformer、MMS和XLS-R，AfriSpeech-Dialog不仅为非洲口音的语音识别提供了宝贵的基准数据，还推动了多语言ASR模型在不同口音环境下的适应性研究。

当前挑战

AfriSpeech-Dialog数据集面临的挑战主要集中在非洲口音的语音识别和说话人分割上。首先，非洲口音的多样性和复杂性使得现有的ASR模型在准确性上存在显著的性能下降。其次，长篇对话中的代码转换现象增加了语音识别的难度，因为模型需要同时处理多种语言的混合输入。此外，说话人分割技术在处理非洲口音时也表现出较高的错误率，这进一步影响了对话摘要的准确性。最后，数据集的构建过程中，模拟真实对话的复杂性和多样性也是一个重大挑战，需要精心设计和验证。

常用场景

经典使用场景

AfriSpeech-Dialog数据集在自动语音识别（ASR）、说话人日志（speaker diarization）和多代理摘要（multi-agent summarization）领域展现了其经典应用。该数据集特别适用于评估非洲口音对话中的ASR模型性能，通过模拟的医疗和非医疗对话，研究人员能够深入分析模型在长篇对话中的表现，尤其是在涉及代码切换（code-switching）的复杂场景中。此外，该数据集还支持对多语言ASR模型进行基准测试，比较其在不同大陆数据集上的表现，从而推动跨文化语音识别技术的进步。

解决学术问题

AfriSpeech-Dialog数据集解决了在非洲口音对话中自动语音识别的学术研究问题。通过提供包含非洲口音的模拟对话数据，该数据集帮助研究人员评估和改进现有ASR模型在非标准口音环境下的性能。此外，数据集还解决了说话人日志和多代理摘要技术在复杂对话中的应用问题，特别是在医疗和非医疗场景中的实际应用。这些研究不仅提升了语音识别技术的准确性，还为跨文化交流和医疗领域的语音技术应用提供了重要参考。

实际应用

AfriSpeech-Dialog数据集在实际应用中具有广泛的前景，特别是在医疗和非医疗领域的语音识别和对话管理中。在医疗场景中，该数据集可以用于开发能够准确识别和记录医生与患者对话的系统，从而提高电子病历的准确性和完整性。在非医疗领域，如客户服务和教育，该数据集支持开发能够理解和生成自然语言对话的智能助手，提升用户体验和服务效率。此外，该数据集还可用于培训和评估多语言语音识别系统，促进全球语音技术的普及和应用。

数据集最近研究