five

somosnlp/medical_bilingual_en_es

收藏
Hugging Face2024-03-21 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/medical_bilingual_en_es
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含医疗转录文本,支持英语和西班牙语两种语言。数据集经过ChatGPT API翻译,并进行了数据清理以确保质量。数据集分为英语和西班牙语两个部分,分别包含4069个样本。此外,还开发了一个双语模型,用于医疗转录的分类和诊断。

该数据集包含医疗转录文本,支持英语和西班牙语两种语言。数据集经过ChatGPT API翻译,并进行了数据清理以确保质量。数据集分为英语和西班牙语两个部分,分别包含4069个样本。此外,还开发了一个双语模型,用于医疗转录的分类和诊断。
提供机构:
somosnlp
原始信息汇总

数据集概述

数据集特征

  • description: 数据类型为字符串。
  • medical_specialty: 数据类型为字符串。
  • sample_name: 数据类型为字符串。
  • transcription: 数据类型为字符串。

数据集分割

  • en: 包含4069个样本,总字节数为12845119。
  • es: 包含4069个样本,总字节数为13894364。

数据集大小

  • 下载大小: 12814673字节。
  • 数据集大小: 26739483字节。

语言

  • en: 英语。
  • es: 西班牙语。

数据集类别

  • 大小类别: 1K<n<10K。

数据文件配置

  • 默认配置:
    • en: 路径为data/en-*
    • es: 路径为data/es-*

数据集处理

  • 数据集经过翻译和后翻译数据的清洗,确保数据的准确性和一致性。
  • 翻译过程中使用了ChatGPT API,并进行了详细的校对和调整,以保证医学术语和描述的准确性。
  • 清洗过程包括文本的标准化和规范化,删除了不必要的元素如特殊字符、缺失行和空值。

数据集应用

  • 用于开发一个双语紧凑型模型,用于医学转录的分类和诊断。
  • 模型旨在分析英语或西班牙语的医学转录,确定并传达医学专业、病例描述和主要诊断。

数据集来源

  • 数据集原始来源为Kaggle

数据集状态

  • 初始数据行数约为4998行。
  • 最终数据行数约为4007行。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作