HiTZ/Multilingual-Medical-Corpus

Name: HiTZ/Multilingual-Medical-Corpus
Creator: HiTZ
Published: 2024-04-12 12:32:51
License: 暂无描述

Hugging Face2024-04-12 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/HiTZ/Multilingual-Medical-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Multilingual Medical Corpus是一个包含30亿词的多语言医学语料库，支持英语、西班牙语、法语和意大利语四种语言，用于训练适应医学领域的大型语言模型。数据集包含来自ClinicalTrials、EMEA、PubMed、Medical Crawler等多个医学相关资源的文本。该数据集由Iker García-Ferrero等人开发，资金支持来自CHIST-ERA XAI 2019 call和Antidote项目。数据集的开源模型包括Medical-mT5-large、Medical-mT5-xl等，参数数量从738M到3B不等，任务类型包括语言建模和多任务序列标注。

提供机构：

HiTZ

原始信息汇总

数据集概述

数据集名称

名称: Multilingual Medical Corpus

数据集语言

支持语言:
- English
- Spanish
- French
- Italian

数据集许可证

许可证: apache-2.0

数据集特征

特征:
- 名称: text
- 数据类型: string

数据集分割

分割详情:
- English:
  - 字节数: 7672665166
  - 示例数: 21226237
- Spanish:
  - 字节数: 6245812986
  - 示例数: 35444286
- French:
  - 字节数: 4763269707
  - 示例数: 7192779
- Italian:
  - 字节数: 1021535232
  - 示例数: 3504555

数据集大小

下载大小: 10530951092
数据集总大小: 19703283091

数据集配置

配置:
- 名称: default
- 数据文件路径:
  - English: data/en-*
  - Spanish: data/es-*
  - French: data/fr-*
  - Italian: data/it-*

数据集来源和词数

数据来源和词数:
- English:
  - ClinicalTrials: 127.4M words
  - EMEA: 12M words
  - PubMed: 968.4M words
- Spanish:
  - EMEA: 13.6M words
  - PubMed: 8.4M words
  - Medical Crawler: 918M words
  - SPACC: 350K words
  - UFAL: 10.5M words
  - WikiMed: 5.2M words
- French:
  - PubMed: 1.4M words
  - Science Direct: 15.2M words
  - Wikipedia - Médecine: 5M words
  - EDP: 48K words
  - Google Patents: 654M words
- Italian:
  - Medical Commoncrawl - IT: 67M words
  - Drug instructions: 30.5M words
  - Wikipedia - Medicina: 13.3M words
  - E3C Corpus - IT: 11.6M words
  - Medicine descriptions: 6.3M words
  - Medical theses: 5.8M words
  - Medical websites: 4M words
  - PubMed: 2.3M words
  - Supplement description: 1.3M words
  - Medical notes: 975K words
  - Pathologies: 157K words
  - Medical test simulations: 26K words
  - Clinical cases: 20K words

开源模型

模型详情:
- HiTZ/Medical-mT5-large:
  - 参数数量: 738M
  - 任务: Language Modeling
- HiTZ/Medical-mT5-xl:
  - 参数数量: 3B
  - 任务: Language Modeling
- HiTZ/Medical-mT5-large-multitask:
  - 参数数量: 738M
  - 任务: Multitask Sequence Labeling
- HiTZ/Medical-mT5-xl-multitask:
  - 参数数量: 3B
  - 任务: Multitask Sequence Labeling

5,000+

优质数据集

54 个

任务类型

进入经典数据集