five

HiTZ/Multilingual-Medical-Corpus

收藏
Hugging Face2024-04-12 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/HiTZ/Multilingual-Medical-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Multilingual Medical Corpus是一个包含30亿词的多语言医学语料库,支持英语、西班牙语、法语和意大利语四种语言,用于训练适应医学领域的大型语言模型。数据集包含来自ClinicalTrials、EMEA、PubMed、Medical Crawler等多个医学相关资源的文本。该数据集由Iker García-Ferrero等人开发,资金支持来自CHIST-ERA XAI 2019 call和Antidote项目。数据集的开源模型包括Medical-mT5-large、Medical-mT5-xl等,参数数量从738M到3B不等,任务类型包括语言建模和多任务序列标注。

Multilingual Medical Corpus是一个包含30亿词的多语言医学语料库,支持英语、西班牙语、法语和意大利语四种语言,用于训练适应医学领域的大型语言模型。数据集包含来自ClinicalTrials、EMEA、PubMed、Medical Crawler等多个医学相关资源的文本。该数据集由Iker García-Ferrero等人开发,资金支持来自CHIST-ERA XAI 2019 call和Antidote项目。数据集的开源模型包括Medical-mT5-large、Medical-mT5-xl等,参数数量从738M到3B不等,任务类型包括语言建模和多任务序列标注。
提供机构:
HiTZ
原始信息汇总

数据集概述

数据集名称

  • 名称: Multilingual Medical Corpus

数据集语言

  • 支持语言:
    • English
    • Spanish
    • French
    • Italian

数据集许可证

  • 许可证: apache-2.0

数据集特征

  • 特征:
    • 名称: text
    • 数据类型: string

数据集分割

  • 分割详情:
    • English:
      • 字节数: 7672665166
      • 示例数: 21226237
    • Spanish:
      • 字节数: 6245812986
      • 示例数: 35444286
    • French:
      • 字节数: 4763269707
      • 示例数: 7192779
    • Italian:
      • 字节数: 1021535232
      • 示例数: 3504555

数据集大小

  • 下载大小: 10530951092
  • 数据集总大小: 19703283091

数据集配置

  • 配置:
    • 名称: default
    • 数据文件路径:
      • English: data/en-*
      • Spanish: data/es-*
      • French: data/fr-*
      • Italian: data/it-*

数据集来源和词数

  • 数据来源和词数:
    • English:
      • ClinicalTrials: 127.4M words
      • EMEA: 12M words
      • PubMed: 968.4M words
    • Spanish:
      • EMEA: 13.6M words
      • PubMed: 8.4M words
      • Medical Crawler: 918M words
      • SPACC: 350K words
      • UFAL: 10.5M words
      • WikiMed: 5.2M words
    • French:
      • PubMed: 1.4M words
      • Science Direct: 15.2M words
      • Wikipedia - Médecine: 5M words
      • EDP: 48K words
      • Google Patents: 654M words
    • Italian:
      • Medical Commoncrawl - IT: 67M words
      • Drug instructions: 30.5M words
      • Wikipedia - Medicina: 13.3M words
      • E3C Corpus - IT: 11.6M words
      • Medicine descriptions: 6.3M words
      • Medical theses: 5.8M words
      • Medical websites: 4M words
      • PubMed: 2.3M words
      • Supplement description: 1.3M words
      • Medical notes: 975K words
      • Pathologies: 157K words
      • Medical test simulations: 26K words
      • Clinical cases: 20K words

开源模型

  • 模型详情:
    • HiTZ/Medical-mT5-large:
      • 参数数量: 738M
      • 任务: Language Modeling
    • HiTZ/Medical-mT5-xl:
      • 参数数量: 3B
      • 任务: Language Modeling
    • HiTZ/Medical-mT5-large-multitask:
      • 参数数量: 738M
      • 任务: Multitask Sequence Labeling
    • HiTZ/Medical-mT5-xl-multitask:
      • 参数数量: 3B
      • 任务: Multitask Sequence Labeling
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作