ziffir/Llama2-MedTuned-Instructions.1

Name: ziffir/Llama2-MedTuned-Instructions.1
Creator: ziffir
Published: 2024-01-06 09:10:53
License: 暂无描述

Hugging Face2024-01-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ziffir/Llama2-MedTuned-Instructions.1

下载链接

链接失效反馈

官方服务：

资源简介：

Llama2-MedTuned-Instructions是一个基于指令的数据集，专为训练生物医学NLP任务中的语言模型而开发。它包含大约200,000个样本，每个样本都设计为引导模型执行特定任务，如命名实体识别（NER）、关系提取（RE）和医学自然语言推理（NLI）。该数据集融合了多个现有的生物医学数据源，并重新格式化以支持基于指令的学习。

提供机构：

ziffir

原始信息汇总

数据集卡片 "Llama2-MedTuned-Instructions"

数据集描述

Llama2-MedTuned-Instructions 是一个针对生物医学自然语言处理任务训练语言模型的指令型数据集。它包含约200,000个样本，每个样本都经过精心设计，以指导模型执行特定的任务，如命名实体识别（NER）、关系抽取（RE）和医学自然语言推理（NLI）。该数据集融合了多种现有数据源，重新格式化以促进指令型学习。

源数据集和组成

该数据集融合了多个著名的生物医学数据集的训练子集：

命名实体识别（NER）：使用 NCBI-disease、BC5CDR-disease、BC5CDR-chem、BC2GM、JNLPBA 和 i2b2-2012 数据集。
关系抽取（RE）：包含 i2b2-2010 和 GAD 数据集。
自然语言推理（NLI）：采用 MedNLI 数据集。
文档分类：使用癌症标志（HoC）数据集。
问答（QA）：包括来自 ChatDoctor 和 PMC-Llama-Instructions 数据集的样本。

提示策略

数据集中的每个样本遵循三部分结构：指令、输入和输出。这种格式确保了任务指令和预期结果的清晰性，与指令型训练方法一致。

使用和应用

该数据集非常适合用于训练和评估模型在生物医学自然语言处理任务上的表现，特别是那些专注于理解和处理医学和临床文本的任务。它作为评估模型在特定领域任务中性能的基准，与 BioBERT 和 BioClinicalBERT 等已建立的模型进行比较。

致谢

我们感谢所有贡献者和支持机构。

引用

在学术工作或应用中使用此数据集时，请引用：

bibtex @misc{rohanian2023exploring, title={Exploring the Effectiveness of Instruction Tuning in Biomedical Language Processing}, author={Omid Rohanian and Mohammadmahdi Nouriborji and David A. Clifton}, year={2023}, eprint={2401.00579}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集