BioNLP Benchmarks

github2024-04-29 更新2024-05-31 收录

下载链接：

https://github.com/BIDS-Xu-Lab/Biomedical-NLP

下载链接

链接失效反馈

官方服务：

资源简介：

BioNLP基准数据集，包含多个生物医学自然语言处理任务的数据集，用于评估和训练BioNLP语言模型。数据集包括完整的训练、开发和测试集，以及用于零样本和单样本学习的提示。

The BioNLP benchmark dataset encompasses a collection of datasets for various biomedical natural language processing tasks, designed for the evaluation and training of BioNLP language models. The dataset includes comprehensive training, development, and test sets, along with prompts for zero-shot and few-shot learning.

创建时间：

2024-04-21

原始信息汇总

数据集概述

数据集组成

原始完整数据集：包含训练（train）、开发（dev）和测试（test）数据，位于benchmarks/{dataset_name}/datasets/full_set/目录。
提示（Prompts）：包括零样本和一样本提示，位于benchmarks/{dataset_name}/目录。

数据集用途

用于生物医学自然语言处理（BioNLP）模型的基准测试。

数据集预处理与模型训练

预处理数据集

提供预处理数据集，用于特定任务的模型训练，如clinicalnlplab/CochranePLS_train等。

模型训练

提供24个微调模型，包括Llama-2-13b和PMC-LLaMA-13b，用于12个数据集。

预测与评估

预测脚本

GPT模型：用于生成6种生成任务的预测，如[QA]MedQA(5-option)。
Llama模型：遵循llama目录中的指令进行预测。

评估

使用run_eval.py进行评估，支持多种任务类型，如NER、RE、MLC等。

结果

任务类型	主要指标	GPT-3.5 zero-shot	GPT-4 zero-shot	LLAMA2 13B zero-shot	GPT-3.5 one-shot	GPT-4 one-shot	LLAMA2 13B one-shot	LLAMA2 13B fine-tuned	PMC LLAMA 13B fine-tuned
[NER]BC5CDR-chemical	Entity F1	0.6274	0.7993	0.3944	0.7133	0.8327	0.6276	0.9149	0.9063
[NER]NCBI Disease	Entity F1	0.4060	0.5827	0.2211	0.4817	0.5988	0.3811	0.8682	0.8353
[RE]ChemProt	Macro F1	0.1345	0.3250	0.1392	0.1280	0.3391	0.0718	0.4612	0.3111
[RE]DDI2013	Macro F1	0.2004	0.2968	0.1305	0.2126	0.3312	0.1779	0.6218	0.5700
[MLC]HoC	Macro F1	0.6722	0.7109	0.1285	0.6671	0.7093	0.3072	0.6957	0.4221
[MLC]LitCovid	Macro F1	0.5967	0.5883	0.3825	0.6009	0.5901	0.4808	0.5725	0.4273
[QA]MedQA(5-option)	Accuracy	0.4988	0.7156	0.2522	0.5161	0.7439	0.2899	0.4462	0.3975
[QA]PubMedQA	Accuracy	0.6560	0.6280	0.5520	0.4600	0.7100	0.2660	0.8040	0.7680
[Summarization]PubMed	Rouge-L	0.2274	0.2419	0.1190	0.2351	0.2427	0.0989	0.1857	0.1684
[Summarization]MS^2	Rouge-L	0.0889	0.1224	0.0948	0.1132	0.1248	0.0320	0.0934	0.0059
[Simplification]Cochrane	Rouge-L	0.2365	0.2375	0.2081	0.2447	0.2385	0.2207	0.2355	0.2370
[Simplification]PLOS	Rouge-L	0.2323	0.2253	0.2121	0.2449	0.2386	0.1836	0.2583	0.2577
Macro-average	-	0.3814	0.4561	0.2362	0.3848	0.4750	0.2614	0.5131	0.4422

搜集汇总

数据集介绍

构建方式

BioNLP Benchmarks数据集的构建基于12个来自六个生物医学自然语言处理应用的基准测试，包括命名实体识别、关系抽取、多标签文档分类、问答、文本摘要和文本简化。每个基准测试的数据集分为训练集、开发集和测试集，存储在`benchmarks/{dataset_name}/datasets/full_set/`目录中。此外，数据集还提供了用于零样本和少样本学习的提示，这些提示文件位于`benchmarks/{dataset_name}/`目录下。为了支持指令微调，数据集还提供了预处理后的数据集，这些数据集可以通过Hugging Face平台访问。

特点

BioNLP Benchmarks数据集的显著特点在于其多样性和广泛的应用覆盖。数据集涵盖了生物医学领域的多个核心任务，如命名实体识别和关系抽取，这些任务对于理解复杂的生物医学文本至关重要。此外，数据集还提供了针对零样本和少样本学习的提示，这使得研究者可以在资源有限的情况下进行有效的模型训练。预处理后的数据集进一步简化了模型的微调过程，使得研究者能够快速上手并进行实验。

使用方法

使用BioNLP Benchmarks数据集时，研究者可以通过访问`benchmarks`文件夹获取原始数据集，并根据需要选择训练集、开发集或测试集。对于零样本和少样本学习，研究者可以使用提供的提示文件进行模型推理。此外，数据集还提供了用于指令微调的预处理数据集，这些数据集可以通过Hugging Face平台下载。为了进行模型评估，研究者可以使用提供的`run_eval.py`脚本，该脚本支持多种任务的评估，并生成包含预测结果和黄金标准标签的JSON文件。

背景与挑战

背景概述

BioNLP Benchmarks数据集由BIDS-Xu-Lab实验室于2023年发布，旨在系统评估大型语言模型在生物医学自然语言处理（NLP）领域的性能。该数据集涵盖了六个核心应用领域，包括命名实体识别、关系提取、多标签文档分类、问答系统、文本摘要和文本简化，共包含12个基准测试。通过公开相关数据、模型和代码，研究人员能够对不同模型进行全面的比较和分析，推动生物医学NLP领域的发展。

当前挑战

BioNLP Benchmarks数据集面临的挑战主要集中在两个方面。首先，生物医学文本的复杂性和专业性使得数据预处理和标注过程异常复杂，尤其是在命名实体识别和关系提取等任务中，准确性和一致性要求极高。其次，由于生物医学领域的特殊性，现有的大型语言模型在处理这些任务时表现出的性能差异较大，尤其是在零样本和少样本学习场景下，模型的泛化能力仍需进一步提升。此外，数据集的构建过程中还需解决数据隐私和伦理问题，确保数据的合法性和安全性。

常用场景

经典使用场景

BioNLP Benchmarks数据集的经典使用场景主要集中在生物医学自然语言处理领域，涵盖了命名实体识别、关系抽取、多标签文档分类、问答系统、文本摘要和文本简化等六大应用。这些基准测试数据集为研究人员提供了丰富的资源，用于评估和比较不同语言模型在生物医学文本处理任务中的性能。通过这些数据集，研究者可以系统地评估模型在零样本和少样本学习环境下的表现，从而推动生物医学领域自然语言处理技术的发展。

衍生相关工作

BioNLP Benchmarks数据集的发布催生了一系列相关的经典工作。首先，基于该数据集的评估结果，研究者们开发了多种针对生物医学文本的预训练语言模型，如LLAMA和PMC-LLAMA，这些模型在多个基准测试中表现优异。其次，数据集的零样本和少样本学习提示设计，启发了更多关于如何在有限标注数据下进行高效模型训练的研究。此外，数据集的广泛应用还促进了生物医学文本处理技术的跨领域合作，推动了从基础研究到实际应用的快速转化。

数据集最近研究