MMedC 大规模多语言医疗语料库

超神经2024-10-13 更新2024-12-14 收录

下载链接：

https://hyper.ai/cn/datasets/34809

下载链接

链接失效反馈

官方服务：

资源简介：

大规模多语医疗语料 (MMedC) 是一个由上海交通大学人工智能学院智慧医疗团队于 2024 年构建的多语言医疗语料库，它包含了约 255 亿个 tokens，涵盖了 6 种主要语言：英语、中文、日语、法语、俄语和西班牙语。这个数据集的构建是为了推动多语言医学大语言模型的发展，它覆盖了全球大部分地区，并且对更多语言的支持仍在不断更新和扩展中。相关论文成果为「Towards Building Multilingual Language Model for Medicine」，已发表于《nature communications》。

The Massive Multilingual Medical Corpus (MMedC) is a multilingual medical corpus constructed in 2024 by the Smart Healthcare Team from the School of Artificial Intelligence at Shanghai Jiao Tong University. It contains approximately 25.5 billion tokens and covers six major languages: English, Chinese, Japanese, French, Russian, and Spanish. Developed to advance the development of multilingual medical large language models, this corpus covers most regions worldwide, and its support for additional languages is continuously being updated and expanded. The associated research paper titled "Towards Building Multilingual Language Model for Medicine" has been published in *Nature Communications*.

创建时间：

2024-10-08

搜集汇总

数据集介绍

背景与挑战

背景概述

MMedC是一个由上海交通大学于2024年构建的大规模多语言医疗语料库，包含约255亿个tokens，覆盖英语、中文等6种主要语言，数据来源于通用文本筛选、医学教科书OCR、医疗网站爬取和现有数据集整合。该数据集旨在支持多语言医学大语言模型的训练和评估，并附带评测标准和开源模型，以促进医疗领域的全球化应用。

以上内容由遇见数据集搜集并总结生成