somosnlp/medical_bilingual_en_es

收藏

Hugging Face2024-03-21 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/somosnlp/medical_bilingual_en_es

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含医疗转录文本，支持英语和西班牙语两种语言。数据集经过ChatGPT API翻译，并进行了数据清理以确保质量。数据集分为英语和西班牙语两个部分，分别包含4069个样本。此外，还开发了一个双语模型，用于医疗转录的分类和诊断。

该数据集包含医疗转录文本，支持英语和西班牙语两种语言。数据集经过ChatGPT API翻译，并进行了数据清理以确保质量。数据集分为英语和西班牙语两个部分，分别包含4069个样本。此外，还开发了一个双语模型，用于医疗转录的分类和诊断。

提供机构：

somosnlp

原始信息汇总

数据集概述

数据集特征

description: 数据类型为字符串。
medical_specialty: 数据类型为字符串。
sample_name: 数据类型为字符串。
transcription: 数据类型为字符串。

数据集分割

en: 包含4069个样本，总字节数为12845119。
es: 包含4069个样本，总字节数为13894364。

数据集大小

下载大小: 12814673字节。
数据集大小: 26739483字节。

语言

en: 英语。
es: 西班牙语。

数据集类别

大小类别: 1K<n<10K。

数据文件配置

默认配置:
- en: 路径为data/en-*。
- es: 路径为data/es-*。

数据集处理

数据集经过翻译和后翻译数据的清洗，确保数据的准确性和一致性。
翻译过程中使用了ChatGPT API，并进行了详细的校对和调整，以保证医学术语和描述的准确性。
清洗过程包括文本的标准化和规范化，删除了不必要的元素如特殊字符、缺失行和空值。

数据集应用

用于开发一个双语紧凑型模型，用于医学转录的分类和诊断。
模型旨在分析英语或西班牙语的医学转录，确定并传达医学专业、病例描述和主要诊断。

数据集来源

数据集原始来源为Kaggle。

数据集状态

初始数据行数约为4998行。
最终数据行数约为4007行。

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作