five

leduckhai/VietMed

收藏
Hugging Face2024-05-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/leduckhai/VietMed
下载链接
链接失效反馈
官方服务:
资源简介:
VietMed是一个用于越南语医疗领域自动语音识别的数据集,包含16小时的标注医疗语音、1000小时的未标注医疗语音和1200小时的未标注通用领域语音。该数据集在总时长、说话者数量、疾病种类、录音条件、说话者角色、独特医学术语和口音等七个方面被认为是世界上最大的公共医疗语音识别数据集。此外,它也是迄今为止最大的越南语语音数据集,并且是第一个涵盖所有ICD-10疾病组和一个国家内所有口音的医疗ASR数据集。

VietMed is a dataset for automatic speech recognition (ASR) in the Vietnamese medical domain. It contains 16 hours of annotated medical speech, 1000 hours of unannotated medical speech, and 1200 hours of unannotated general-domain speech. The dataset is recognized as the world's largest public medical ASR dataset across seven dimensions: total duration, number of speakers, disease categories, recording conditions, speaker roles, unique medical terminology, and accents. Additionally, it is the largest Vietnamese speech dataset to date, and the first medical ASR dataset that covers all ICD-10 disease groups and all accents within a single country.
提供机构:
leduckhai
原始信息汇总

VietMed: 医疗领域越南语自动语音识别数据集与基准

描述

我们介绍了一个针对医疗领域的越南语语音识别数据集,包含16小时的标记医疗语音、1000小时的未标记医疗语音和1200小时的未标记通用领域语音。据我们所知,VietMed在以下七个方面是迄今为止世界上最大的公开医疗语音识别数据集:总时长、说话人数、疾病种类、录音条件、说话者角色、独特的医疗术语和口音。此外,VietMed在总时长方面也是迄今为止最大的公开越南语语音数据集。我们还首次提供了一个涵盖所有ICD-10疾病组和全国所有口音的医疗自动语音识别数据集。

限制

由于该数据集是人工标记的,录音中可能会有1-2个起始或结束的单词未出现在转录文本中。这是人工标记数据集的特性,人类无法区分速度快于1秒的单词。相比之下,强制对齐可以解决这个问题,因为机器可以在10毫秒至20毫秒内“听”到单词。然而,强制对齐仅学习人类所教授的内容。因此,没有完美的转录文本。我们将在下一篇论文中进行人机协作,以获得“更完美”的转录文本。

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作