five

darija-HF-dataset

收藏
Hugging Face2026-03-10 更新2026-03-11 收录
下载链接:
https://huggingface.co/datasets/DrIAmed/darija-HF-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含1,106个医疗对话音频样本及其文本转录,主要特点包括:1) 音频特征:采样率为16kHz的音频文件;2) 文本特征:包含原始转录(transcript_raw)和标准化转录(transcript_normalized)双版本;3) 结构化标注:每个样本包含6个医疗对话元数据字段(对话时长、医疗相关性、药物信息、对话主题、症状描述等)。数据集仅包含训练集,总大小约1GB,适用于医疗语音识别、对话分析等NLP任务。
创建时间:
2026-03-07
原始信息汇总

Darija-HF 数据集概述

数据集基本信息

  • 数据集名称:Darija-HF
  • 托管平台:Hugging Face
  • 数据集地址:https://huggingface.co/datasets/DrIAmed/darija-HF-dataset

数据内容与结构

  • 数据类型:音频及文本转录
  • 音频采样率:16000 Hz
  • 数据总量:1106 个样本
  • 数据大小
    • 下载大小:1012750921 字节
    • 数据集大小:1013186033 字节
  • 数据分割:仅包含训练集(train)

数据特征字段

  1. audio

    • 类型:音频
    • 采样率:16000 Hz
  2. transcript_raw

    • 类型:字符串
    • 描述:原始转录文本
  3. transcript_normalized

    • 类型:字符串
    • 描述:标准化后的转录文本
  4. output

    • 类型:结构体
    • 包含字段:
      • duree(类型:字符串)
      • medical_relevance(类型:字符串)
      • medicament(类型:字符串)
      • subject_of_conversation(类型:字符串)
      • symptom(类型:字符串)
      • symptome(类型:字符串)

配置信息

  • 配置名称:default
  • 数据文件路径:data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在摩洛哥阿拉伯语方言语音识别领域,darija-HF-dataset的构建体现了对低资源语言数据的系统性采集与标注。该数据集通过收集1106条语音样本,每条样本均以16kHz的采样率进行音频录制,确保了语音信号的保真度。每条音频不仅提供了原始转录文本,还包含了经过标准化的转录版本,以应对方言拼写的多样性。此外,数据集为每条样本标注了结构化的输出信息,涵盖持续时间、医疗相关性、药物名称、对话主题及症状描述等多个维度,这些标注通过人工或半自动流程完成,旨在支持多任务学习场景。
使用方法
使用darija-HF-dataset时,研究者可基于HuggingFace平台直接加载数据,利用其音频特征与转录字段进行端到端的语音识别模型训练。标准化转录文本可作为目标标签,而结构化输出字段则支持多任务学习,例如结合症状分类或医疗实体识别。由于数据集仅包含训练分割,建议用户自行划分验证集与测试集以确保模型泛化能力。该数据集适用于摩洛哥阿拉伯语的自动语音识别、医疗对话分析及低资源语言建模等研究,为跨领域应用提供基础数据支撑。
背景与挑战
背景概述
随着自然语言处理技术在全球化进程中的不断深入,针对低资源语言的语音与文本数据处理需求日益凸显。darija-HF-dataset应运而生,专注于摩洛哥阿拉伯语方言(Darija)的医疗对话领域,由研究团队通过HuggingFace平台于近年发布。该数据集旨在解决医疗信息提取与方言语音识别中的核心难题,通过提供带标注的音频及转写文本,支持自动症状识别、药物提及检测及对话主题分类等任务。其构建不仅填补了方言医疗语料库的空白,也为跨语言医疗辅助系统的发展提供了关键资源,推动了语言技术在全球健康公平性方面的应用。
当前挑战
在医疗信息提取领域,darija-HF-dataset面临的挑战在于方言的语音变异性和医疗术语的非标准化表达,这增加了自动语音识别与实体标注的难度。构建过程中,研究人员需克服数据稀疏性问题,因为摩洛哥阿拉伯语方言缺乏大规模标注语料,同时医疗对话涉及隐私保护与伦理审查,使得数据收集与匿名化处理尤为复杂。此外,方言与标准阿拉伯语及法语之间的语码转换现象,进一步要求模型具备多语言理解能力,以确保信息提取的准确性与鲁棒性。
常用场景
经典使用场景
在自然语言处理与语音识别领域,darija-HF-dataset 为摩洛哥阿拉伯语方言的研究提供了关键资源。该数据集包含音频及其转录文本,特别标注了医学相关属性,如症状、药物和对话主题,使其成为方言医学对话分析的经典工具。研究者常利用该数据集训练和评估方言自动语音识别模型,探索在低资源语言环境下语音转文本的准确性,从而推动方言语音技术的进步。
解决学术问题
darija-HF-dataset 主要解决了方言语言资源稀缺的学术挑战,尤其在医学领域的应用。它通过提供结构化的医学对话数据,支持研究者分析方言中的专业术语和口语表达,促进了跨语言信息提取和语义理解的研究。该数据集有助于缩小高资源语言与低资源方言之间的技术鸿沟,为方言自然语言处理模型的开发奠定基础,对语言多样性和包容性技术发展具有深远意义。
实际应用
在实际应用中,darija-HF-dataset 可用于开发智能医疗助手,支持摩洛哥地区的方言医疗咨询。基于该数据集的系统能够识别患者描述的病症和药物信息,辅助医疗工作者进行初步诊断或资源分配。此外,它在教育领域也有潜力,帮助语言学习者或翻译工具更好地理解方言医学用语,提升医疗服务的可及性和效率,特别是在资源有限的社区中。
数据集最近研究
最新研究方向
在低资源语言处理领域,摩洛哥阿拉伯语方言(Darija)数据集的构建与应用正成为前沿热点。darija-HF-dataset作为专注于医疗对话的音频转录资源,其最新研究聚焦于跨语言迁移学习与端到端语音理解模型的开发。学者们利用该数据集探索方言语音识别在医疗咨询场景中的适应性,结合症状、药物等结构化标注,推动多任务学习框架在临床辅助诊断中的实践。这一方向不仅响应了全球数字健康倡议对语言多样性的包容需求,也为资源稀缺方言的自动语音处理技术提供了实证基础,促进了医疗信息服务的公平可及性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作