HiTZ/Multilingual-Medical-Corpus
收藏Hugging Face2024-04-12 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/HiTZ/Multilingual-Medical-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
Multilingual Medical Corpus是一个包含30亿词的多语言医学语料库,支持英语、西班牙语、法语和意大利语四种语言,用于训练适应医学领域的大型语言模型。数据集包含来自ClinicalTrials、EMEA、PubMed、Medical Crawler等多个医学相关资源的文本。该数据集由Iker García-Ferrero等人开发,资金支持来自CHIST-ERA XAI 2019 call和Antidote项目。数据集的开源模型包括Medical-mT5-large、Medical-mT5-xl等,参数数量从738M到3B不等,任务类型包括语言建模和多任务序列标注。
Multilingual Medical Corpus是一个包含30亿词的多语言医学语料库,支持英语、西班牙语、法语和意大利语四种语言,用于训练适应医学领域的大型语言模型。数据集包含来自ClinicalTrials、EMEA、PubMed、Medical Crawler等多个医学相关资源的文本。该数据集由Iker García-Ferrero等人开发,资金支持来自CHIST-ERA XAI 2019 call和Antidote项目。数据集的开源模型包括Medical-mT5-large、Medical-mT5-xl等,参数数量从738M到3B不等,任务类型包括语言建模和多任务序列标注。
提供机构:
HiTZ
原始信息汇总
数据集概述
数据集名称
- 名称: Multilingual Medical Corpus
数据集语言
- 支持语言:
- English
- Spanish
- French
- Italian
数据集许可证
- 许可证: apache-2.0
数据集特征
- 特征:
- 名称: text
- 数据类型: string
数据集分割
- 分割详情:
- English:
- 字节数: 7672665166
- 示例数: 21226237
- Spanish:
- 字节数: 6245812986
- 示例数: 35444286
- French:
- 字节数: 4763269707
- 示例数: 7192779
- Italian:
- 字节数: 1021535232
- 示例数: 3504555
- English:
数据集大小
- 下载大小: 10530951092
- 数据集总大小: 19703283091
数据集配置
- 配置:
- 名称: default
- 数据文件路径:
- English: data/en-*
- Spanish: data/es-*
- French: data/fr-*
- Italian: data/it-*
数据集来源和词数
- 数据来源和词数:
- English:
- ClinicalTrials: 127.4M words
- EMEA: 12M words
- PubMed: 968.4M words
- Spanish:
- EMEA: 13.6M words
- PubMed: 8.4M words
- Medical Crawler: 918M words
- SPACC: 350K words
- UFAL: 10.5M words
- WikiMed: 5.2M words
- French:
- PubMed: 1.4M words
- Science Direct: 15.2M words
- Wikipedia - Médecine: 5M words
- EDP: 48K words
- Google Patents: 654M words
- Italian:
- Medical Commoncrawl - IT: 67M words
- Drug instructions: 30.5M words
- Wikipedia - Medicina: 13.3M words
- E3C Corpus - IT: 11.6M words
- Medicine descriptions: 6.3M words
- Medical theses: 5.8M words
- Medical websites: 4M words
- PubMed: 2.3M words
- Supplement description: 1.3M words
- Medical notes: 975K words
- Pathologies: 157K words
- Medical test simulations: 26K words
- Clinical cases: 20K words
- English:
开源模型
- 模型详情:
- HiTZ/Medical-mT5-large:
- 参数数量: 738M
- 任务: Language Modeling
- HiTZ/Medical-mT5-xl:
- 参数数量: 3B
- 任务: Language Modeling
- HiTZ/Medical-mT5-large-multitask:
- 参数数量: 738M
- 任务: Multitask Sequence Labeling
- HiTZ/Medical-mT5-xl-multitask:
- 参数数量: 3B
- 任务: Multitask Sequence Labeling
- HiTZ/Medical-mT5-large:



