Afrispeech-Dialog

Name: Afrispeech-Dialog
Creator: Intron, BioRAMP, Brown University, Indian Institute of Information Technology Allahabad, University of Minnesota-Twin Cities, University of Glasgow, University of Florida, Johns Hopkins University, University of North Carolina at Chapel Hill, Georgia Institute of Technology
Published: 2025-02-06 18:33:07
License: 暂无描述

arXiv2025-02-06 更新2025-02-10 收录

下载链接：

https://speech.intron.health

下载链接

链接失效反馈

官方服务：

资源简介：

Afrispeech-Dialog是由Intron公司创建的一个包含50个模拟的非洲口音英语医疗和非医疗对话的基准数据集，旨在评估自动语音识别和相关技术在非洲口音英语上的性能。该数据集涵盖了来自尼日利亚、肯尼亚和南非三个国家的多种非洲口音，包括医疗和一般领域的对话，支持说话人识别、语音识别和总结任务。

提供机构：

Intron, BioRAMP, Brown University, Indian Institute of Information Technology Allahabad, University of Minnesota-Twin Cities, University of Glasgow, University of Florida, Johns Hopkins University, University of North Carolina at Chapel Hill, Georgia Institute of Technology

创建时间：

2025-02-06

搜集汇总

数据集介绍

构建方式

Afrispeech-Dialog数据集的构建过程涉及收集50个模拟的医疗和非医疗领域非洲口音英语对话，这些对话由非洲医疗和非医疗领域的群众工作者在Intron平台上录制。每个对话都遵循了医疗领域常用的客观结构化临床考试（OSCE）格式，医生和患者演员均为医疗专业人士。对于非医疗领域的对话，参与者根据准备好的话题卡片进行开放讨论。所有对话都进行了手动转录，并由临床专家审核。该数据集涵盖了来自尼日利亚、肯尼亚和南非的11种不同口音，对话时长总计7小时。

特点

Afrispeech-Dialog数据集的主要特点包括其多样化的非洲口音、涵盖医疗和非医疗领域的对话内容以及长格式对话的特点。该数据集为评估自动语音识别（ASR）、说话人分割和大型语言模型（LLM）在非洲口音对话中的表现提供了基准。此外，该数据集还展示了ASR错误对下游医疗摘要的影响，为全球南方地区的语音技术挑战和机遇提供了洞见。

使用方法

使用Afrispeech-Dialog数据集时，研究人员可以对其进行分割，以进行说话人分割、自动语音识别和医疗对话摘要等任务的评估。数据集已手动转录，并带有时间戳和说话人标签，便于进行详细的分析。此外，该数据集还提供了对当前最先进的说话人分割和ASR系统在非洲口音对话中的性能进行基准测试的结果，以及使用LLM进行医疗对话摘要的性能评估。

背景与挑战

背景概述

Afrispeech-Dialog数据集的创建旨在填补自动语音识别（ASR）技术在处理非洲口音英语对话方面的研究空白。该数据集由BioRAMP机构的研究团队于2025年创建，包含了50个模拟的医疗和非医疗领域的非洲口音英语对话，旨在评估ASR和相关技术。该数据集的创建不仅为评估当前最先进的说话人分离和ASR系统提供了基准，而且还揭示了在处理非洲口音英语对话时这些系统存在的性能差距。此外，该数据集还探索了大型语言模型（LLM）在医疗对话摘要方面的能力，并展示了ASR错误对下游医疗摘要的影响，为全球南方地区语音技术的挑战和机遇提供了见解。

当前挑战

Afrispeech-Dialog数据集面临的主要挑战包括：1) ASR系统在处理非洲口音英语对话时的性能下降，尤其是在医疗领域，由于口音医疗术语的存在，ASR系统表现出更高的错误率；2) 说话人分离模型在非洲口音对话中的性能不如在其他口音对话中的性能；3) LLM在基于ASR转录的医疗对话摘要任务中的表现不如基于人类转录的摘要任务。这些挑战突出了在低资源环境中开发更具包容性的ASR和自然语言处理（NLP）技术的必要性，以改善语音技术在非洲地区的应用。

常用场景

经典使用场景

Afrispeech-Dialog数据集被设计用于评估自动语音识别(ASR)和相关技术在模拟的非洲口音英语对话中的性能。该数据集包含50个模拟的医疗和非医疗对话，旨在填补当前ASR研究中对非洲口音英语对话研究不足的空白。它为评估ASR和相关的语音技术提供了一个基准，特别是在医疗和非医疗环境中，以及评估大型语言模型(LLM)在医疗对话摘要方面的能力。

实际应用

Afrispeech-Dialog数据集的实际应用场景包括医疗和非医疗环境中的自动语音识别和对话摘要。在医疗领域，该数据集可以用于开发能够识别和转录非洲口音英语的医疗对话的系统，从而提高临床文档的质量和效率。在非医疗领域，该数据集可以用于开发能够识别和转录非洲口音英语的语音助手和呼叫中心系统，从而提高客户服务的质量和效率。

衍生相关工作

Afrispeech-Dialog数据集衍生了多项相关研究工作，包括针对非洲口音英语的ASR模型和LLM模型的开发。此外，该数据集还促进了针对非洲口音英语的对话摘要技术的研究，以及ASR和LLM技术在资源匮乏的环境中的应用。这些衍生工作有助于推动语音技术在非洲和其他资源匮乏地区的应用，并为未来的研究提供了重要的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集