somosnlp/medical_bilingual_en_es
收藏Hugging Face2024-03-21 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/medical_bilingual_en_es
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含医疗转录文本,支持英语和西班牙语两种语言。数据集经过ChatGPT API翻译,并进行了数据清理以确保质量。数据集分为英语和西班牙语两个部分,分别包含4069个样本。此外,还开发了一个双语模型,用于医疗转录的分类和诊断。
该数据集包含医疗转录文本,支持英语和西班牙语两种语言。数据集经过ChatGPT API翻译,并进行了数据清理以确保质量。数据集分为英语和西班牙语两个部分,分别包含4069个样本。此外,还开发了一个双语模型,用于医疗转录的分类和诊断。
提供机构:
somosnlp
原始信息汇总
数据集概述
数据集特征
- description: 数据类型为字符串。
- medical_specialty: 数据类型为字符串。
- sample_name: 数据类型为字符串。
- transcription: 数据类型为字符串。
数据集分割
- en: 包含4069个样本,总字节数为12845119。
- es: 包含4069个样本,总字节数为13894364。
数据集大小
- 下载大小: 12814673字节。
- 数据集大小: 26739483字节。
语言
- en: 英语。
- es: 西班牙语。
数据集类别
- 大小类别: 1K<n<10K。
数据文件配置
- 默认配置:
- en: 路径为
data/en-*。 - es: 路径为
data/es-*。
- en: 路径为
数据集处理
- 数据集经过翻译和后翻译数据的清洗,确保数据的准确性和一致性。
- 翻译过程中使用了ChatGPT API,并进行了详细的校对和调整,以保证医学术语和描述的准确性。
- 清洗过程包括文本的标准化和规范化,删除了不必要的元素如特殊字符、缺失行和空值。
数据集应用
- 用于开发一个双语紧凑型模型,用于医学转录的分类和诊断。
- 模型旨在分析英语或西班牙语的医学转录,确定并传达医学专业、病例描述和主要诊断。
数据集来源
- 数据集原始来源为Kaggle。
数据集状态
- 初始数据行数约为4998行。
- 最终数据行数约为4007行。



