Henrychur/MMedC
收藏Hugging Face2024-07-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Henrychur/MMedC
下载链接
链接失效反馈官方服务:
资源简介:
MMedC是一个包含255亿个标记的多语言医学语料库,支持英语、中文、日语、法语、俄语、西班牙语、阿拉伯语和德语。数据来源于过滤内容、医学教科书、医学网站和小规模数据集。数据集以txt格式保存,并提供了下载和使用方法。
MMedC是一个包含255亿个标记的多语言医学语料库,支持英语、中文、日语、法语、俄语、西班牙语、阿拉伯语和德语。数据来源于过滤内容、医学教科书、医学网站和小规模数据集。数据集以txt格式保存,并提供了下载和使用方法。
提供机构:
Henrychur
原始信息汇总
MMedC 数据集概述
基本信息
- 许可证: cc-by-nc-sa-4.0
- 语言: 英语、中文、日语、法语、俄语、西班牙语、阿拉伯语、德语
- 标签: 医疗
- 数据量: 10B<n<100B
数据集介绍
MMedC 是一个多语言医疗语料库,包含 25.5 亿个标记。数据集包含以下语言和对应的数据量:
| 语言 | 语系 | 过滤内容 | 教科书 | 网站 | 小规模数据集 | 总计 |
|---|---|---|---|---|---|---|
| 英语 | 印欧语系 | 6.56 | 4.00 | 0.00 | 0.00 | 10.56 |
| 西班牙语 | 印欧语系 | 3.98 | 0.31 | 0.05 | 0.02 | 4.35 |
| 法语 | 印欧语系 | 1.90 | 0.02 | 0.00 | 0.17 | 2.10 |
| 俄语 | 印欧语系 | 1.29 | 0.40 | 0.00 | 0.00 | 1.69 |
| 中文 | 汉藏语系 | 3.34 | 1.21 | 0.00 | 0.19 | 4.74 |
| 日语 | 汉藏语系 | 1.93 | 0.00 | 0.10 | 0.01 | 2.05 |
| 阿拉伯语 | 亚非语系 | 0.64 | 0.00 | 0.00 | 0.00 | 0.64 |
| 德语 | 印欧语系 | 1.54 | 0.00 | 0.00 | 0.00 | 1.54 |
- 英语教科书部分未包含在数据集中,因版权问题,请参考 PMC-LLaMA。
数据下载与使用
数据以 txt 格式保存,zip 文件包含四个文件夹,分别对应四种数据来源:过滤内容、医疗网站、医疗教科书和小规模数据集。
获取文件路径示例
python import os txt_root = "PATH/TO/MMEDC" txt_paths = [] for root, dirs, files in os.walk(txt_root): if cultural_filtered_data_used not in root: for file in files: if file.endswith(.txt): txt_paths.append(os.path.join(root, file))
评估
MMedLM 2 在 MMedBench 上的表现:
| 方法 | 大小 | 年份 | MMedC | MMedBench | 英语 | 中文 | 日语 | 法语 | 俄语 | 西班牙语 | 平均 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| GPT-3.5 | - | 2022.12 | ✗ | ✗ | 56.88 | 52.29 | 34.63 | 32.48 | 66.36 | 66.06 | 51.47 |
| GPT-4 | - | 2023.3 | ✗ | ✗ | 78.00 | 75.07 | 72.91 | 56.59 | 83.62 | 85.67 | 74.27 |
| Gemini-1.0 pro | - | 2024.1 | ✗ | ✗ | 53.73 | 60.19 | 44.22 | 29.90 | 73.44 | 69.69 | 55.20 |
| BLOOMZ | 7B | 2023.5 | ✗ | trainset | 43.28 | 58.06 | 32.66 | 26.37 | 62.89 | 47.34 | 45.10 |
| InternLM | 7B | 2023.7 | ✗ | trainset | 44.07 | 64.62 | 37.19 | 24.92 | 58.20 | 44.97 | 45.67 |
| Llama 2 | 7B | 2023.7 | ✗ | trainset | 43.36 | 50.29 | 25.13 | 20.90 | 66.80 | 47.10 | 42.26 |
| MedAlpaca | 7B | 2023.3 | ✗ | trainset | 46.74 | 44.80 | 29.64 | 21.06 | 59.38 | 45.00 | 41.11 |
| ChatDoctor | 7B | 2023.4 | ✗ | trainset | 43.52 | 43.26 | 25.63 | 18.81 | 62.50 | 43.44 | 39.53 |
| PMC-LLaMA | 7B | 2023.4 | ✗ | trainset | 47.53 | 42.44 | 24.12 | 20.74 | 62.11 | 43.29 | 40.04 |
| Mistral | 7B | 2023.10 | ✗ | trainset | 61.74 | 71.10 | 44.72 | 48.71 | 74.22 | 63.86 | 60.73 |
| InternLM 2 | 7B | 2024.2 | ✗ | trainset | 57.27 | 77.55 | 47.74 | 41.00 | 68.36 | 59.59 | 58.59 |
| MMedLM (Ours) | 7B | - | ✗ | trainset | 49.88 | 70.49 | 46.23 | 36.66 | 72.27 | 54.52 | 55.01 |
| MMedLM 2 (Ours) | 7B | - | ✗ | trainset | 61.74 | 80.01 | 61.81 | 52.09 | 80.47 | 67.65 | 67.30 |
- GPT 和 Gemini 在零样本设置下通过 API 进行评估。
- 开源模型首先在 MMedBench 的训练集上进行训练,然后进行评估。
搜集汇总
数据集介绍

构建方式
MMedC数据集的构建,依托于多元化的数据来源,涵盖英语、西班牙语、法语、俄语、中文、日语、阿拉伯语及德语等多语种医学文本,总计25.5亿个token。该数据集通过整合医学教材、网站、过滤内容以及小规模数据集等多种类型的数据,经过严格的筛选和处理,形成了这一全面的医学语言模型预训练数据集。
特点
MMedC数据集的特点在于其多语种、大规模的医学文本覆盖。它不仅包含了丰富的医学知识和专业术语,而且跨越了不同的语言和文化背景,为构建能够服务于全球医疗保健领域的多语言语言模型提供了坚实基础。此外,MMedC在构建过程中注重数据的质量和多样性,确保了模型的泛化能力和实用性。
使用方法
用户可以通过下载MMedC.zip文件来获取全部数据,数据以txt格式存储,并按照数据来源分为四个文件夹。用户可使用Python代码遍历目录以获取所有txt文件的路径,进而读取这些文件并进行自定义操作。GitHub仓库还提供了数据收集管道及数据预处理代码,方便用户进一步处理和使用该数据集。
背景与挑战
背景概述
MMedC数据集,作为构建多语种医学语言模型的官方预训练数据集,由MAGIC-AI4Med团队于2023年推出。该数据集涵盖了25.5亿个标记,包含英语、西班牙语、法语、俄语、中文、日语、阿拉伯语和德语等多种语言,旨在促进医学文本的跨语言处理和理解。MMedC的构建汇集了医学教科书、网站以及小型数据集等多种来源,特别是其对于医学领域的多语种资源的整合,对推动医学自然语言处理领域的研究具有重要意义。
当前挑战
MMedC数据集在构建过程中面临了诸多挑战。首先,医学领域的多语种资源稀缺,整合不同语言和来源的数据是一项艰巨的任务。其次,数据清洗和预处理是确保数据质量的关键,这对于医学领域尤为重要,因为错误的或不准确的数据可能导致错误的医学决策。此外,数据集的版权问题也是构建过程中的一大挑战,尤其是医学教科书部分。在研究领域问题方面,MMedC需要解决如何有效支持多语种医学问答、诊断辅助等任务的挑战,这对于提升医疗服务的质量和效率具有直接影响。
常用场景
经典使用场景
在医学领域,多语言医学文本的整合与理解至关重要。MMedC数据集作为多语言医学文本的集合,其经典使用场景在于为构建多语言医学语言模型提供训练基础,进而支持医学文献的翻译、医学知识的跨语言传播以及医学问答系统的开发。
实际应用
MMedC数据集的实际应用广泛,包括但不限于支持多语言医学文献的检索、辅助医疗翻译、构建多语言医学问答系统,以及为医疗人工智能模型提供训练数据,从而提高医疗服务质量和效率。
衍生相关工作
基于MMedC数据集,已衍生出一系列相关工作,包括MMedLM和MMedLM 2等医学语言模型的开发,以及MMedBench多语言医学多选问答基准测试的创建,这些工作进一步推动了医学自然语言处理领域的研究与应用。
以上内容由遇见数据集搜集并总结生成



