MEDINST

Name: MEDINST
Creator: 埃因霍温理工大学、利物浦大学、悉尼科技大学、耶鲁大学
Published: 2024-10-17 19:38:54
License: 暂无描述

arXiv2024-10-17 更新2024-10-19 收录

下载链接：

https://github.com/aialt/MedINST

下载链接

链接失效反馈

官方服务：

资源简介：

MEDINST是由埃因霍温理工大学等机构创建的生物医学指令元数据集，包含133个生物医学NLP任务和超过700万训练样本。数据集涵盖12个类别，如命名实体识别、问答等，旨在为大型语言模型提供全面的训练和评估资源。创建过程中，数据集经过广泛的预处理和标准化，确保其适用于LLM的训练。MEDINST主要应用于生物医学领域的任务泛化能力评估，旨在解决生物医学数据多样性和复杂性带来的挑战。

MEDINST is a biomedical instruction meta-dataset created by Eindhoven University of Technology and other institutions. It contains 133 biomedical NLP tasks and over 7 million training samples. The dataset covers 12 categories including named entity recognition, question answering and others, with the goal of providing comprehensive training and evaluation resources for large language models. During the development process, the dataset has been subjected to extensive preprocessing and standardization to ensure its suitability for LLM training. MEDINST is primarily used for evaluating task generalization capabilities in the biomedical domain, and it aims to address the challenges arising from the diversity and complexity of biomedical data.

提供机构：

埃因霍温理工大学、利物浦大学、悉尼科技大学、耶鲁大学

创建时间：

2024-10-17

原始信息汇总

MedINST: 生物医学指令元数据集

概述

MedINST（Meta Dataset of Biomedical Instructions）是一个新颖的多领域、多任务的生物医学指令元数据集。MedINST包含133个生物医学NLP任务和超过700万个训练样本，是目前最全面的生物医学指令数据集。

数据集访问

MedINST：完整数据集可通过LiinXemmon/MedINST访问。
MedINST32：挑战性基准数据集可通过LiinXemmon/MedINST32访问。

模型

LLaMA3-MI：在MedINST的100K样本上进一步微调LLaMA-3-8B-Instruct。
MMedL3-MI：在MedINST的100K样本上进一步微调MMed-Llama-3-8B。

评估

使用OpenAI兼容的API访问和评估LLMs。
评估ChatGPT的命令： bash python evaluation.py --name <SAVE_NAME> --dir <SAVE_DIR> --model gpt-3.5-turbo --key <YOUR_KEY>

添加--zero选项以在零样本设置中评估模型。
其他模型：可以使用vLLM在本地部署模型，并通过--base_url选项指定部署API的URL。

搜集汇总

数据集介绍

构建方式

MEDINST数据集通过收集和整合98个广泛采用的生物医学数据集，涵盖12个任务类别，并将其重构为133个任务。所有任务都被视为文本生成任务，并按照指令遵循样本的格式进行数据格式化。指令由人工标注，并根据每个数据集/任务的具体需求进行定制。这种构建方式确保了数据集的多领域、多任务特性，使其成为迄今为止最全面的生物医学指令数据集。

特点

MEDINST数据集的主要特点在于其多领域、多任务的结构，涵盖了133个生物医学自然语言处理任务，跨越12个类别。数据集包含超过700万个训练样本，提供了丰富的数据资源。此外，MEDINST还通过创建MEDINST32基准，旨在评估大型语言模型在生物医学领域的跨任务泛化能力，进一步突显了其挑战性和实用性。

使用方法

MEDINST数据集可用于微调大型语言模型，以提高其在生物医学领域的性能。通过使用MEDINST作为元数据集，研究人员可以创建和评估针对特定任务的模型，如MEDINST32基准。使用方法包括在MEDINST数据集上进行多任务微调，然后在MEDINST32上进行评估，以展示模型在未见任务上的泛化能力。此外，数据集的开放性和多样性使其成为生物医学自然语言处理研究的重要资源。

背景与挑战

背景概述

随着大型语言模型（LLM）技术在医学分析领域的整合，显著推动了该领域的进步。然而，大规模、多样化且经过良好标注的数据集的稀缺性仍然是一个主要挑战。医学数据和任务在格式、规模和其他参数上存在显著差异，需要广泛的预处理和标准化以有效用于LLM的训练。为应对这些挑战，MEDINST数据集应运而生，它是一个新颖的多领域、多任务的生物医学指令元数据集。MEDINST包含133个生物医学NLP任务和超过700万条训练样本，是目前最全面的生物医学指令数据集。通过使用MEDINST作为元数据集，我们构建了MEDINST32，一个旨在评估LLM在生物医学领域跨任务泛化能力的挑战性基准。

当前挑战

MEDINST数据集面临的挑战主要集中在两个方面：一是解决领域问题，如图像分类中的挑战；二是构建过程中遇到的挑战。在领域问题方面，生物医学数据的多样性和复杂性要求模型具备高度的适应性和泛化能力。在构建过程中，收集原始医学数据并将其转换为适合LLM应用的格式是一个复杂且具有挑战性的任务。此外，医学数据和任务在格式、规模和其他参数上的显著差异需要广泛的预处理和标准化，这进一步增加了数据集构建的难度。MEDINST32的构建旨在通过不同难度的任务评估LLM的泛化能力，这要求模型在处理未见任务时表现出优异的性能。

常用场景

经典使用场景

MEDINST数据集在生物医学自然语言处理（NLP）领域中，被广泛用于训练和微调大型语言模型（LLMs）。其经典使用场景包括但不限于命名实体识别（NER）、关系抽取（RE）、问答系统（QA）等任务。通过提供多样化和大规模的训练样本，MEDINST显著提升了模型在处理生物医学文本时的准确性和泛化能力。

衍生相关工作

基于MEDINST数据集，研究者们开发了多个相关的经典工作，如MEDINST32基准测试集，用于评估LLMs在生物医学任务中的泛化能力。此外，还有一系列基于MEDINST的微调模型，如LLaMA3-MI32和MMedL3-MI32，这些模型在多个生物医学NLP任务中表现出色，推动了该领域的技术进步。

数据集最近研究