somosnlp/SMC-instruct

Name: somosnlp/SMC-instruct
Creator: somosnlp
Published: 2024-05-28 15:53:14
License: 暂无描述

Hugging Face2024-05-28 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/somosnlp/SMC-instruct

下载链接

链接失效反馈

官方服务：

资源简介：

Spanish Medical Corpus (SMC) 是一个专门为西班牙语医学领域设计的数据集，旨在为大型语言模型（LLM）的自适应和预训练提供支持。该数据集整合了多个公开的医学资源，并进行了结构化处理，包含原始文本、主题、专业领域、文本类型、主题类型、来源、国家和文档ID等字段。数据集的创建动机是为了满足西班牙语使用者在医学领域获取信息的需求，并符合联合国提出的千年发展目标。数据集的使用建议包括LLM的微调和预训练，特别是在西班牙语医学领域的应用。

提供机构：

somosnlp

原始信息汇总

数据集概述

数据集基本信息

名称: Spanish Medical Corpus (SMC)
语言: 西班牙语 (es-ES, es-CL)
许可证: Apache-2.0
任务类别: 问答、零样本分类、文本生成

数据集结构

特征

raw_text: 文档关联文本，问题，临床案例或其他类型信息。
topic: 与医疗处理（healthcare_treatment），诊断（healthcare_diagnosis），健康主题（topic），问题答案（answer）相关文本。
speciallity: 与原始文本相关的医学专业，如心脏病学，外科等。
raw_text_type: 可以是临床案例（clinic_case），开放文本（open_text），问题或空。
topic_type: 可以是医学主题，医学诊断，答案，自然医学主题，其他或空。
source: 文档来源标识符。
country: 来源国家标识符，使用ISO 3166-1 alpha-2标准。
document_id: 源数据集中的文档标识符。

数据分割

训练集: 2136490个样本，大小为190710909字节。

数据集来源

存储库: somosnlp/SMC
数据源: 包括Cantemist corpus, MedlinePlus Spanish, PharmaCoNER等。

使用场景

直接使用: 用于西班牙语环境下的大型语言模型（LLM）的微调和预训练。
注意事项: 模型训练结果需经过医疗专家的严格评估。

数据集创建

数据收集与处理

数据源: 包括多个公开资源，如医学领域的文本和数据集。
处理过程: 自动转换数据源至新数据集的属性。

许可证

数据集许可证: Apache License 2.0

引用信息

@software{lopez2024spanishmedicallm, author = {Lopez Dionis, Garcia Alvaro, Montoya Dylan, Bermúdez Daniel}, title = {SpanishMedicaLLM}, month = February, year = 2024, url = {https://huggingface.co/datasets/somosnlp/SMC} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集